国产开源项目(SwiftInfer):大模型无限流式输入推理飙升46%

站长之家 2024-01-08 14:45:51新闻资讯
45

近日,国产开源项目SwiftInfer实现了无限流式输入推理,成功提升了大模型推理性能46%。这是一个重大突破,可以为多轮对话场景提供高效可靠的落地方案。

它采用了attention sink注意力机制、窗口注意力优化、KV Cache机制优化等方法,SwiftInfer的推理性能得到了极大提升,为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。

SwiftInfer.png

项目地址:https://github.com/hpcaitech/SwiftInfer

在这一方法中,使用了TensorRT的API,获得了接近于PyTorch API的模型编写体验。这对于进一步提升推理性能起到了重要作用。

SwiftInfer通过了解了注意力模块中Softmax的输出,发现了attention sink的现象,使得在多轮对话的情景下,生成效果更加稳定。

它使用了基于attention sink的注意力机制,无论是在计算复杂度还是生成效果上都表现优异。经过SwiftInfer的优化,推理性能提升非常明显。

Colossal-AI团队发布的SwiftInfer在推理性能上的提升很明显,为大模型多轮对话推理提供了高效可靠的落地方案。

Colossal-AI目前已获得GitHub星数三万五千多颗,位列全球TOP400,细分赛道排名世界第一,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,提升模型任务表现,降低GPU需求。

开源项目
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

智谱清影:智谱AI推出的基于CogVideoX大模型的AI视频生成工具
智谱清影是智谱AI推出的一款革命性的视频生成应用,它基于新一代视频生成大模型CogVideoX,旨在为用户提供快速、高效、高质量的视频生成服务。无论是从文字创意生成视频,还是...
2024-10-31 新闻资讯
126

EchoMimic:阿里巴巴达摩院推出的AI音频驱动图片说话开源项目
EchoMimic是阿里巴巴达摩院推出的一款AI音频驱动图片说话开源项目,专注于通过先进的深度学习技术将静态图像转化为具有动态语音和表情的数字人像。这项技术的核心在于它能够根...
2024-10-29 新闻资讯
116

百度文心一言App升级为文小言:9月内文心4.0大模型免费用
9月4日消息,百度今日宣布,其旗下AI应用“文心一言”已全面升级为4.0.0版本,并更名为“文小言”。据悉,文小言功能更强大,场景更丰富,基于文心大模型提供搜索、创作、聊天...
2024-09-04 新闻资讯
136

智谱AI:GLM-4-Flash大模型API接口免费向公众开放
北京智谱华章科技有限公司近期宣布,将旗下GLM-4-Flash大型语言模型的API接口免费向公众开放,以推动大型模型技术的普及和应用。GLM-4-Flash模型在速度和性能上都展现出显著的...
2024-08-27 新闻资讯
150

摩尔线程开源MooER:国产GPU驱动的先进语音识别与翻译大模型
摩尔线程智能科技有限公司(Moore Threads)近日宣布,其基于国产全功能GPU训练和推理的大型语音模型MooER(摩耳)已成功开源。MooER模型采用了创新的三部分结构设计,包括En...
2024-08-26 新闻资讯
132

什么是MLM?它与LLM大模型有什么区别?
随着人工智能技术的迅猛发展,语言模型在自然语言处理(NLP)领域扮演着至关重要的角色。其中,两种常见的语言模型MLM(Masked Language Model,掩码语言模型)和LLM(Large ...
2024-08-01 电脑知识
266