异度部落格

学习是一种生活态度。

0%

SGLang是一款高性能LLM推理框架,结合创新的RadixAttention前缀缓存技术与灵活的前端编程接口,显著提升大模型推理效率。本文深入解析其架构设计与核心技术,包括高效后端运行时、受限解码加速及推测执行等先进特性。

Read more »

DeepSeek-R1模型通过创新性的强化学习技术显著提升了大语言模型的推理能力,其中R1-Zero无需SFT数据即实现了稳健的推理表现,R1在引入少量冷启动数据后进一步优化了性能,而R1-Distill则将推理能力成功蒸馏至小模型。尽管外界对其训练成本和CUDA依赖性存在误解,但DeepSeek在算法与硬件协同优化上的技术突破具有重要意义。

Read more »

Agent记忆是AI在任务中存储和管理信息的能力,能够实现个性化交互、保持上下文连贯性并降低运营成本。与RAG不同,记忆侧重于用户信息而非知识检索,优化多轮会话体验。不同的记忆机制各有特点,适用于不同场景。

Read more »

本文介绍了结构化生成(Structured Outputs)和受限解码(Constrained Decoding)技术,重点探讨如何通过约束规则确保大语言模型(LLM)生成符合预定格式的输出。文章分析了几种常见的受限解码实现方法,包括有限状态机(FSM)、交错解码(Interleaved Decoding) 、压缩有限状态机跳跃式解码方法(Jump-Forward Decoding With a Compressed Finite State Machine)和基于上下文无关语法(CFG)的解码。

Read more »

KV Cache 压缩技术是优化 LLM 推理性能的关键方向,主要分为**稀疏化**和**量化**两类。稀疏化通过选取关键 token 减少存储需求,而量化通过降低数据精度压缩 KV Cache 空间。

Read more »

Chunked Prefills 是一种优化大型语言模型推理 Prefill 阶段的技术,通过将 Prefill 请求分块并与 Decode 请求组合成批次,提升 GPU 资源利用率和推理吞吐量。该方法基于合理的分块大小与动态调度策略,兼顾了计算效率与一致性需求,显著改善了推理性能。

Read more »

投机解码(Speculative Decoding)是一种通过引入小型的 Draft Model 来加速大型语言模型(LLM)推理的技术。它通过先预测后验证的方式,实现了验证过程的并行执行,从而显著提高解码速度。该方法能够在保证解码质量的同时,提升推理效率,是加速 LLM 推理的有效方案。

Read more »

Prefix Caching 是一种推理优化方法,通过缓存历史对话中的 KV Cache 来提升多轮对话中的首次 Token 计算效率。文章介绍了在 SGLang、vLLM 和 Deepseek 等大型模型推理系统中如何实现 Prefix Caching。

Read more »