大模型推理过程分为 Prefill 和 Decoding 阶段,利用 KV Cache 技术显著提高计算效率。然而,传统固定显存分配方式显存利用率低。PagedAttention 动态分配显存,借鉴操作系统虚拟内存分页技术,通过逻辑块与物理块的映射灵活管理 KV Cache。同时,vLLM 在调度中引入抢占机制和分布式管理策略,实现显存资源的高效利用与多卡协作。
LLM推理优化 - KV Cache
KVCache 是一种优化大语言模型(LLM)推理效率的技术,通过缓存之前计算得到的键值对(Key-Value),减少每次推理过程中的重复计算,从而显著提升推理速度和降低计算开销。本文介绍了 KVCache 的基本概念、内存占用及其实现细节。
Flash Attention三部曲
传统自注意力机制的计算复杂度为 O(N²),对于长序列的处理效率低下,显著增加内存和计算负担。Flash Attention 通过分块计算和重计算优化,将复杂度降为 O(N),减少显存占用,提升计算速度,并保持与标准注意力等效。它的改进主要体现在减少显存访问次数、提高计算效率,使其在大型模型训练中表现更优。
Transformer 101
Transformer 是一种由 Google 于 2017 年提出的深度学习架构,最初用于解决自然语言处理中的长期依赖问题,现已广泛应用于计算机视觉和大语言模型(如 GPT-3 和 Llama),其核心结构包括编码器和解码器,并利用自注意力机制和位置编码提高了处理效率。
LLM Agent设计模式 - Reflection
Reflexion 是一种通过语言反馈增强语言模型学习能力的框架,不依赖于模型参数的更新。该方法通过反思和反馈循环,持续优化模型的决策过程。
LLM Agent设计模式 - LATS
LATS(Language Agent Tree Search)是一种结合推理、行动和规划的框架,旨在增强语言模型的决策能力,主要通过蒙特卡罗树搜索算法实现。该方法利用预训练语言模型评估状态,生成反思,并通过环境反馈提高模型适应性和问题解决能力。
LLM Agent设计模式 - ReWOO
ReWOO(Reasoning WithOut Observation)是一种新型增强语言模型提示方法,通过将推理过程与外部观察分离,显著减少令牌消耗。其核心在于将复杂任务分解为多个计划,由工作者获取证据,求解器整合生成最终答案。ReWOO 的模块化设计提升了效率和扩展性,同时在工具失效时表现出更高的鲁棒性。
LLM Agent设计模式 - Plan-and-Solve
Plan-and-Solve (PS) 设计模式通过将任务分解为子任务并按计划执行,提升了大型语言模型在多步推理任务上的表现。
LLM Agent设计模式 - ReAct
ReAct 设计模式通过交替使用推理和行动步骤,让大型语言模型(LLM)在解决复杂任务时更加可靠和准确。它有效减少了错误传播,提升了模型的可解释性和决策成功率。
LLM模型推理入门
随着生成式 AI 的迅速发展,大语言模型(LLM)的推理性能和成本成为关键障碍。本文从Transformer介绍入手,探讨了 LLM 推理的推理过程,并介绍了通过算法创新和系统优化提升推理效率的方法。