传统自注意力机制的计算复杂度为 O(N²),对于长序列的处理效率低下,显著增加内存和计算负担。Flash Attention 通过分块计算和重计算优化,将复杂度降为 O(N),减少显存占用,提升计算速度,并保持与标准注意力等效。它的改进主要体现在减少显存访问次数、提高计算效率,使其在大型模型训练中表现更优。
Transformer 101
Transformer 是一种由 Google 于 2017 年提出的深度学习架构,最初用于解决自然语言处理中的长期依赖问题,现已广泛应用于计算机视觉和大语言模型(如 GPT-3 和 Llama),其核心结构包括编码器和解码器,并利用自注意力机制和位置编码提高了处理效率。
LLM Agent设计模式 - Reflection
Reflexion 是一种通过语言反馈增强语言模型学习能力的框架,不依赖于模型参数的更新。该方法通过反思和反馈循环,持续优化模型的决策过程。
LLM Agent设计模式 - LATS
LATS(Language Agent Tree Search)是一种结合推理、行动和规划的框架,旨在增强语言模型的决策能力,主要通过蒙特卡罗树搜索算法实现。该方法利用预训练语言模型评估状态,生成反思,并通过环境反馈提高模型适应性和问题解决能力。
LLM Agent设计模式 - ReWOO
ReWOO(Reasoning WithOut Observation)是一种新型增强语言模型提示方法,通过将推理过程与外部观察分离,显著减少令牌消耗。其核心在于将复杂任务分解为多个计划,由工作者获取证据,求解器整合生成最终答案。ReWOO 的模块化设计提升了效率和扩展性,同时在工具失效时表现出更高的鲁棒性。
LLM Agent设计模式 - Plan-and-Solve
Plan-and-Solve (PS) 设计模式通过将任务分解为子任务并按计划执行,提升了大型语言模型在多步推理任务上的表现。
LLM Agent设计模式 - ReAct
ReAct 设计模式通过交替使用推理和行动步骤,让大型语言模型(LLM)在解决复杂任务时更加可靠和准确。它有效减少了错误传播,提升了模型的可解释性和决策成功率。
LLM模型推理入门
随着生成式 AI 的迅速发展,大语言模型(LLM)的推理性能和成本成为关键障碍。本文从Transformer介绍入手,探讨了 LLM 推理的推理过程,并介绍了通过算法创新和系统优化提升推理效率的方法。
Rockset技术架构解析
Rockset是一家专注于实时分析和混合检索的数据管理公司,提供高效的实时查询和分析功能。其核心技术包括融合索引和云原生架构,支持多种数据类型的混合检索,并且在实时数据更新和查询性能方面表现优异。2024年,Rockset被OpenAI收购,进一步提升了其在大规模数据分析和管理领域的应用潜力。
如何利用提示词攻破ChatGPT
提示词攻击利用大语言模型的特性,通过特定提示词诱导模型生成特定输出,包括恶意攻击、数据提取等。越狱技术旨在绕过模型限制,泄露机密信息或执行不当逻辑。两者都利用模型的脆弱性进行操控。