异度部落格

LLM推理优化 - Continuous Batching

Posted on 2024-12-18 In LLM技术内幕

Continuous Batching（持续批处理）是一种动态调度请求的推理方法，旨在提高大规模语言模型（LLM）推理的效率。与静态批处理不同，它通过在每次迭代中动态调整批次大小，最大化GPU资源利用率，减少计算浪费。这种方法能够显著提高吞吐量并降低延迟，是LLM推理中的优化标准。

Agent框架分析 - AutoGen

Posted on 2024-12-04 In LLM技术内幕

AutoGen 是一个开源框架，用于构建自主协作的 AI Agent 应用，支持事件驱动、分布式和弹性架构。通过 Actor 模型和层次化的 API 设计，AutoGen 简化了多智能体系统的开发，提供了高效的通信和任务管理机制。它的分层结构使得开发者可以灵活选择底层或高层接口，满足不同复杂度的需求。

LLM推理优化 - Prefill-Decode分离式推理架构

Posted on 2024-11-27 In LLM技术内幕

Prefill-Decode 分离式架构将大模型推理的 Prefill 和 Decode 阶段拆分到不同的 GPU 上独立运行，以优化计算密集型和存储密集型任务的资源利用率。实验表明，该架构能显著降低首 token 延迟（TTFT）并提升整体吞吐量（TPOT），适合通过独立优化算力、存储和并行策略提升推理效率。

LLM推理优化 - PagedAttention

Posted on 2024-11-21 In LLM技术内幕

大模型推理过程分为 Prefill 和 Decoding 阶段，利用 KV Cache 技术显著提高计算效率。然而，传统固定显存分配方式显存利用率低。PagedAttention 动态分配显存，借鉴操作系统虚拟内存分页技术，通过逻辑块与物理块的映射灵活管理 KV Cache。同时，vLLM 在调度中引入抢占机制和分布式管理策略，实现显存资源的高效利用与多卡协作。

LLM推理优化 - KV Cache

Posted on 2024-11-05 In LLM技术内幕

KVCache 是一种优化大语言模型（LLM）推理效率的技术，通过缓存之前计算得到的键值对（Key-Value），减少每次推理过程中的重复计算，从而显著提升推理速度和降低计算开销。本文介绍了 KVCache 的基本概念、内存占用及其实现细节。

LLM推理优化 - Flash Attention

Posted on 2024-10-20 In LLM技术内幕

传统自注意力机制的计算复杂度为 O(N²)，对于长序列的处理效率低下，显著增加内存和计算负担。Flash Attention 通过分块计算和重计算优化，将复杂度降为 O(N)，减少显存占用，提升计算速度，并保持与标准注意力等效。它的改进主要体现在减少显存访问次数、提高计算效率，使其在大型模型训练中表现更优。

Transformer 101

Posted on 2024-09-30 In LLM技术内幕

Transformer 是一种由 Google 于 2017 年提出的深度学习架构，最初用于解决自然语言处理中的长期依赖问题，现已广泛应用于计算机视觉和大语言模型（如 GPT-3 和 Llama），其核心结构包括编码器和解码器，并利用自注意力机制和位置编码提高了处理效率。

LLM Agent设计模式 - Reflection

Posted on 2024-08-11 In LLM技术内幕

Reflexion 是一种通过语言反馈增强语言模型学习能力的框架，不依赖于模型参数的更新。该方法通过反思和反馈循环，持续优化模型的决策过程。

LLM Agent设计模式 - LATS

Posted on 2024-08-10 In LLM技术内幕

LATS（Language Agent Tree Search）是一种结合推理、行动和规划的框架，旨在增强语言模型的决策能力，主要通过蒙特卡罗树搜索算法实现。该方法利用预训练语言模型评估状态，生成反思，并通过环境反馈提高模型适应性和问题解决能力。

LLM Agent设计模式 - ReWOO

Posted on 2024-08-09 In LLM技术内幕

ReWOO（Reasoning WithOut Observation）是一种新型增强语言模型提示方法，通过将推理过程与外部观察分离，显著减少令牌消耗。其核心在于将复杂任务分解为多个计划，由工作者获取证据，求解器整合生成最终答案。ReWOO 的模块化设计提升了效率和扩展性，同时在工具失效时表现出更高的鲁棒性。