异度部落格

使用LLM反编译二进制程序

Posted on 2025-03-17 In LLM技术内幕

本文介绍如何使用大型语言模型（LLM）对二进制程序进行反编译，并通过一个简单的实验展示了具体步骤。

SGLang推理引擎技术解析

Posted on 2025-03-17 In LLM技术内幕

SGLang是一款高性能LLM推理框架，结合创新的RadixAttention前缀缓存技术与灵活的前端编程接口，显著提升大模型推理效率。本文深入解析其架构设计与核心技术，包括高效后端运行时、受限解码加速及推测执行等先进特性。

深入解析模型上下文协议（MCP）

Posted on 2025-03-13 In LLM技术内幕

本文介绍了模型上下文协议（MCP）的核心概念，探讨了MCP的整体架构和关键组成部分。

DeepSeek-R1中的关键技术和误解澄清

Posted on 2025-02-13 In LLM技术内幕

DeepSeek-R1模型通过创新性的强化学习技术显著提升了大语言模型的推理能力，其中R1-Zero无需SFT数据即实现了稳健的推理表现，R1在引入少量冷启动数据后进一步优化了性能，而R1-Distill则将推理能力成功蒸馏至小模型。尽管外界对其训练成本和CUDA依赖性存在误解，但DeepSeek在算法与硬件协同优化上的技术突破具有重要意义。

AI Agent 记忆技术浅析

Posted on 2025-01-20 In LLM技术内幕

Agent记忆是AI在任务中存储和管理信息的能力，能够实现个性化交互、保持上下文连贯性并降低运营成本。与RAG不同，记忆侧重于用户信息而非知识检索，优化多轮会话体验。不同的记忆机制各有特点，适用于不同场景。

Constrained Decoding - 让大模型100%生成符合schema的结构化输出

Posted on 2024-12-27 In LLM技术内幕

本文介绍了结构化生成（Structured Outputs）和受限解码（Constrained Decoding）技术，重点探讨如何通过约束规则确保大语言模型（LLM）生成符合预定格式的输出。文章分析了几种常见的受限解码实现方法，包括有限状态机（FSM）、交错解码（Interleaved Decoding）、压缩有限状态机跳跃式解码方法（Jump-Forward Decoding With a Compressed Finite State Machine）和基于上下文无关语法（CFG）的解码。

LLM推理优化 - KVCache压缩

Posted on 2024-12-26 In LLM技术内幕

KV Cache 压缩技术是优化 LLM 推理性能的关键方向，主要分为**稀疏化**和**量化**两类。稀疏化通过选取关键 token 减少存储需求，而量化通过降低数据精度压缩 KV Cache 空间。

LLM推理优化 - Chunked prefills

Posted on 2024-12-25 In LLM技术内幕

Chunked Prefills 是一种优化大型语言模型推理 Prefill 阶段的技术，通过将 Prefill 请求分块并与 Decode 请求组合成批次，提升 GPU 资源利用率和推理吞吐量。该方法基于合理的分块大小与动态调度策略，兼顾了计算效率与一致性需求，显著改善了推理性能。

LLM推理优化 - Speculative Decoding

Posted on 2024-12-20 In LLM技术内幕

投机解码（Speculative Decoding）是一种通过引入小型的 Draft Model 来加速大型语言模型（LLM）推理的技术。它通过先预测后验证的方式，实现了验证过程的并行执行，从而显著提高解码速度。该方法能够在保证解码质量的同时，提升推理效率，是加速 LLM 推理的有效方案。

LLM推理优化 - Prefix Caching

Posted on 2024-12-19 In LLM技术内幕

Prefix Caching 是一种推理优化方法，通过缓存历史对话中的 KV Cache 来提升多轮对话中的首次 Token 计算效率。文章介绍了在 SGLang、vLLM 和 Deepseek 等大型模型推理系统中如何实现 Prefix Caching。