Atom:一种低位量化技术,可实现高效、准确(LLM)服务

站长之家 2023-11-24 09:59:42新闻资讯
376

大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。

LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源,因此为了增加吞吐量,GPU 资源被有效地利用,通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点,使用了 LLM 量化技术。然而,现有的量化方法,如8位权重 - 激活量化,并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的,当前的量化技术并不是为了实现最大的效率而设计的。

为了解决这个问题,一组研究人员引入了 Atom,一种新的方法,旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术,通过使用低比特操作符和低比特量化来减少内存使用,从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

llm.png

研究团队表示,Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示,与典型的16位浮点(FP16)方法相比,Atom 可以在保持相同目标范围内的延迟的同时,提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化,提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案,因为它保持了所需的响应时间水平,并大大提高了 LLM 处理请求的速度。

研究人员总结了 Atom 的主要贡献如下:

1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。

2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。

3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度,对剩余的关键激活和权重使用降低的精度,同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化,通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了 KV-cache 的量化。

研究还提出了一个长期管理(LLM)服务的集成框架。该团队共同设计了一个有效的推理系统,构建了低比特 GPU 核心,并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。

对 Atom 的性能进行了全面评估,结果显示 Atom 极大地提高了 LLM 服务的吞吐量,吞吐量增益最多可达到7.7倍,同时仅有微小的准确性损失。

论文地址:https://arxiv.org/abs/2310.19102

atom LLM
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Parlant:专为实际应用设计的LLM(大型语言模型)智能体框架
Parlant 是由emcie-co团队开发的一款专为实际应用设计的LLM(大型语言模型)智能体框架,其核心目标是解决传统AI代理在面向客户场景中行为不可预测、难以控制的痛点。通过创新...
2025-08-19 新闻资讯
961

SmolLM:Hugging Face推出的轻量高效多语言长上下文推理模型
SmolLM 是Hugging Face推出的"小而精"语言模型系列,其名称"Smol"源于"Small"的变体,直指其"以小搏大"的核心设计哲学。该项目始于SmolLM2的发布,最初定位为资源受限设备(如...
2025-07-11 新闻资讯
563

PreenCut:一款基于大语言模型(LLM)的开源AI视频剪辑工具
PreenCut 是一款基于大语言模型(LLM)的开源视频剪辑工具,旨在通过AI技术彻底革新传统视频剪辑中素材处理效率低下、语义关联识别困难的痛点。与传统剪辑软件依赖时间轴手动操...
2025-07-08 新闻资讯
565

Nano-vLLM:1200行Python代码实现的高性能轻量级大模型推理引擎
Nano-vLLM是由DeepSeek AI研究员俞星凯开发的轻量级大语言模型(LLM)推理框架,作为当前最简洁的vLLM实现方案之一,其核心创新在于仅用1200行Python代码即复现了原版vLLM的核心...
2025-06-16 新闻资讯
744

Ming-Lite-Omni:蚂蚁集团开源的一款原生全模态多模态大语言模型(MLLM)
Ming-Lite-Omni是蚂蚁集团百灵大模型团队(InclusionAI)开源的一款原生全模态多模态大语言模型(MLLM),基于MoE(Mixture of Experts)架构设计,总参数18B,激活参数3B。作为蚂蚁...
2025-05-30 新闻资讯
535

LLaDA-V:人大高瓴与蚂蚁集团联合开源的多模态大语言模型(MLLM)框架
LLaDA-V是由中国人民大学高瓴人工智能学院与蚂蚁集团联合研发的开源多模态大语言模型(MLLM)框架,首次将纯扩散模型架构成功应用于视觉-语言多模态理解任务。其核心创新在于突...
2025-05-28 新闻资讯
586