异度部落格

学习是一种生活态度。

0%

Continuous Batching(持续批处理)是一种动态调度请求的推理方法,旨在提高大规模语言模型(LLM)推理的效率。与静态批处理不同,它通过在每次迭代中动态调整批次大小,最大化GPU资源利用率,减少计算浪费。这种方法能够显著提高吞吐量并降低延迟,是LLM推理中的优化标准。

Read more »

AutoGen 是一个开源框架,用于构建自主协作的 AI Agent 应用,支持事件驱动、分布式和弹性架构。通过 Actor 模型和层次化的 API 设计,AutoGen 简化了多智能体系统的开发,提供了高效的通信和任务管理机制。它的分层结构使得开发者可以灵活选择底层或高层接口,满足不同复杂度的需求。

Read more »

Prefill-Decode 分离式架构将大模型推理的 Prefill 和 Decode 阶段拆分到不同的 GPU 上独立运行,以优化计算密集型和存储密集型任务的资源利用率。实验表明,该架构能显著降低首 token 延迟(TTFT)并提升整体吞吐量(TPOT),适合通过独立优化算力、存储和并行策略提升推理效率。

Read more »

大模型推理过程分为 Prefill 和 Decoding 阶段,利用 KV Cache 技术显著提高计算效率。然而,传统固定显存分配方式显存利用率低。PagedAttention 动态分配显存,借鉴操作系统虚拟内存分页技术,通过逻辑块与物理块的映射灵活管理 KV Cache。同时,vLLM 在调度中引入抢占机制和分布式管理策略,实现显存资源的高效利用与多卡协作。

Read more »

KVCache 是一种优化大语言模型(LLM)推理效率的技术,通过缓存之前计算得到的键值对(Key-Value),减少每次推理过程中的重复计算,从而显著提升推理速度和降低计算开销。本文介绍了 KVCache 的基本概念、内存占用及其实现细节。

Read more »

传统自注意力机制的计算复杂度为 O(N²),对于长序列的处理效率低下,显著增加内存和计算负担。Flash Attention 通过分块计算和重计算优化,将复杂度降为 O(N),减少显存占用,提升计算速度,并保持与标准注意力等效。它的改进主要体现在减少显存访问次数、提高计算效率,使其在大型模型训练中表现更优。

Read more »

Transformer 是一种由 Google 于 2017 年提出的深度学习架构,最初用于解决自然语言处理中的长期依赖问题,现已广泛应用于计算机视觉和大语言模型(如 GPT-3 和 Llama),其核心结构包括编码器和解码器,并利用自注意力机制和位置编码提高了处理效率。

Read more »

LATS(Language Agent Tree Search)是一种结合推理、行动和规划的框架,旨在增强语言模型的决策能力,主要通过蒙特卡罗树搜索算法实现。该方法利用预训练语言模型评估状态,生成反思,并通过环境反馈提高模型适应性和问题解决能力。

Read more »

ReWOO(Reasoning WithOut Observation)是一种新型增强语言模型提示方法,通过将推理过程与外部观察分离,显著减少令牌消耗。其核心在于将复杂任务分解为多个计划,由工作者获取证据,求解器整合生成最终答案。ReWOO 的模块化设计提升了效率和扩展性,同时在工具失效时表现出更高的鲁棒性。

Read more »