Atom:一种低位量化技术,可实现高效、准确(LLM)服务

站长之家 2023-11-24 09:59:42新闻资讯
282

大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。

LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源,因此为了增加吞吐量,GPU 资源被有效地利用,通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点,使用了 LLM 量化技术。然而,现有的量化方法,如8位权重 - 激活量化,并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的,当前的量化技术并不是为了实现最大的效率而设计的。

为了解决这个问题,一组研究人员引入了 Atom,一种新的方法,旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术,通过使用低比特操作符和低比特量化来减少内存使用,从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

llm.png

研究团队表示,Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示,与典型的16位浮点(FP16)方法相比,Atom 可以在保持相同目标范围内的延迟的同时,提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化,提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案,因为它保持了所需的响应时间水平,并大大提高了 LLM 处理请求的速度。

研究人员总结了 Atom 的主要贡献如下:

1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。

2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。

3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度,对剩余的关键激活和权重使用降低的精度,同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化,通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了 KV-cache 的量化。

研究还提出了一个长期管理(LLM)服务的集成框架。该团队共同设计了一个有效的推理系统,构建了低比特 GPU 核心,并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。

对 Atom 的性能进行了全面评估,结果显示 Atom 极大地提高了 LLM 服务的吞吐量,吞吐量增益最多可达到7.7倍,同时仅有微小的准确性损失。

论文地址:https://arxiv.org/abs/2310.19102

atom LLM
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Nano-vLLM:1200行Python代码实现的高性能轻量级大模型推理引擎
Nano-vLLM是由DeepSeek AI研究员俞星凯开发的轻量级大语言模型(LLM)推理框架,作为当前最简洁的vLLM实现方案之一,其核心创新在于仅用1200行Python代码即复现了原版vLLM的核心...
2025-06-16 新闻资讯
281

Ming-Lite-Omni:蚂蚁集团开源的一款原生全模态多模态大语言模型(MLLM)
Ming-Lite-Omni是蚂蚁集团百灵大模型团队(InclusionAI)开源的一款原生全模态多模态大语言模型(MLLM),基于MoE(Mixture of Experts)架构设计,总参数18B,激活参数3B。作为蚂蚁...
2025-05-30 新闻资讯
358

LLaDA-V:人大高瓴与蚂蚁集团联合开源的多模态大语言模型(MLLM)框架
LLaDA-V是由中国人民大学高瓴人工智能学院与蚂蚁集团联合研发的开源多模态大语言模型(MLLM)框架,首次将纯扩散模型架构成功应用于视觉-语言多模态理解任务。其核心创新在于突...
2025-05-28 新闻资讯
361

Pocket Flow:100行代码构建的开源极简大语言模型(LLM)框架
PocketFlow是由The-Pocket团队开发的开源极简大型语言模型(LLM)框架,其核心代码仅用100行Python实现,却完整支持多智能体协作、工作流编排和检索增强生成(RAG)等复杂功能...
2025-05-26 新闻资讯
291

Oli:开源的终端AI编程助手,支持云API和本地LLM
Oli是一个开源的终端AI编程助手,旨在通过结合云API与本地大语言模型(LLM)的强大能力,为开发者提供高效、灵活的编码辅助工具。其核心目标是简化开发流程,提升编码效率,并...
2025-05-09 新闻资讯
348

SocioVerse:LLM驱动的社会模拟世界模型
SocioVerse是一个开创性的社会模拟项目,它利用大型语言模型(LLMs)作为智能代理,构建了一个能够高精度模拟真实人类社会行为的数字世界。该项目由复旦大学主导,联合上海创...
2025-04-24 新闻资讯
382