异度部落格

学习是一种生活态度。

S3-FIFO 通过三个静态 FIFO 队列与 2-bit 频率位组合,在保持高吞吐和低元数据成本的前提下淘汰“one-hit wonder”对象。其命中率大幅优于 LRU,可在偏斜访问场景中显著降低缓 存未命中与资源浪费。

阅读全文 »

AI Gateway 的兴起源于大模型在混合云环境下广泛应用所带来的数据安全、成本与多模型调度挑战,传统 API Gateway 难以满足需求。它通过基于 Token 的计量与限流、智能路由、流式传输支持、上下文管理等能力,重构了网关架构。如今,Envoy、APISIX、Kong 等产品正推动 AI Gateway 成为企业级 AI 应用的关键基础设施,兼顾合规、安全与成本优化。

阅读全文 »

SGLang是一款高性能LLM推理框架,结合创新的RadixAttention前缀缓存技术与灵活的前端编程接口,显著提升大模型推理效率。本文深入解析其架构设计与核心技术,包括高效后端运行时、受限解码加速及推测执行等先进特性。

阅读全文 »

DeepSeek-R1模型通过创新性的强化学习技术显著提升了大语言模型的推理能力,其中R1-Zero无需SFT数据即实现了稳健的推理表现,R1在引入少量冷启动数据后进一步优化了性能,而R1-Distill则将推理能力成功蒸馏至小模型。尽管外界对其训练成本和CUDA依赖性存在误解,但DeepSeek在算法与硬件协同优化上的技术突破具有重要意义。

阅读全文 »

Agent记忆是AI在任务中存储和管理信息的能力,能够实现个性化交互、保持上下文连贯性并降低运营成本。与RAG不同,记忆侧重于用户信息而非知识检索,优化多轮会话体验。不同的记忆机制各有特点,适用于不同场景。

阅读全文 »

本文介绍了结构化生成(Structured Outputs)和受限解码(Constrained Decoding)技术,重点探讨如何通过约束规则确保大语言模型(LLM)生成符合预定格式的输出。文章分析了几种常见的受限解码实现方法,包括有限状态机(FSM)、交错解码(Interleaved Decoding) 、压缩有限状态机跳跃式解码方法(Jump-Forward Decoding With a Compressed Finite State Machine)和基于上下文无关语法(CFG)的解码。

阅读全文 »

KV Cache 压缩技术是优化 LLM 推理性能的关键方向,主要分为**稀疏化**和**量化**两类。稀疏化通过选取关键 token 减少存储需求,而量化通过降低数据精度压缩 KV Cache 空间。

阅读全文 »

Chunked Prefills 是一种优化大型语言模型推理 Prefill 阶段的技术,通过将 Prefill 请求分块并与 Decode 请求组合成批次,提升 GPU 资源利用率和推理吞吐量。该方法基于合理的分块大小与动态调度策略,兼顾了计算效率与一致性需求,显著改善了推理性能。

阅读全文 »
0%