国产开源项目(SwiftInfer):大模型无限流式输入推理飙升46%

站长之家 2024-01-08 14:45:51新闻资讯
241

近日,国产开源项目SwiftInfer实现了无限流式输入推理,成功提升了大模型推理性能46%。这是一个重大突破,可以为多轮对话场景提供高效可靠的落地方案。

它采用了attention sink注意力机制、窗口注意力优化、KV Cache机制优化等方法,SwiftInfer的推理性能得到了极大提升,为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。

SwiftInfer.png

项目地址:https://github.com/hpcaitech/SwiftInfer

在这一方法中,使用了TensorRT的API,获得了接近于PyTorch API的模型编写体验。这对于进一步提升推理性能起到了重要作用。

SwiftInfer通过了解了注意力模块中Softmax的输出,发现了attention sink的现象,使得在多轮对话的情景下,生成效果更加稳定。

它使用了基于attention sink的注意力机制,无论是在计算复杂度还是生成效果上都表现优异。经过SwiftInfer的优化,推理性能提升非常明显。

Colossal-AI团队发布的SwiftInfer在推理性能上的提升很明显,为大模型多轮对话推理提供了高效可靠的落地方案。

Colossal-AI目前已获得GitHub星数三万五千多颗,位列全球TOP400,细分赛道排名世界第一,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,提升模型任务表现,降低GPU需求。

开源项目
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Nano-vLLM:1200行Python代码实现的高性能轻量级大模型推理引擎
Nano-vLLM是由DeepSeek AI研究员俞星凯开发的轻量级大语言模型(LLM)推理框架,作为当前最简洁的vLLM实现方案之一,其核心创新在于仅用1200行Python代码即复现了原版vLLM的核心...
2025-06-16 新闻资讯
272

ZeroSearch:阿里通义开源的大模型搜索能力强化框架
ZeroSearch是阿里巴巴通义实验室开源的大模型搜索能力强化框架,旨在通过模拟搜索引擎的方式激发大型语言模型(LLM)的搜索能力,而无需依赖真实搜索引擎的API调用。作为当前最...
2025-06-16 新闻资讯
236

Hunyuan3D-2.1:全链路开源工业级3D生成大模型与PBR材质合成系统
Hunyuan3D-2.1是腾讯混元团队全链路开源的工业级3D生成大模型,作为当前最先进的AI驱动3D内容创作框架,其核心突破在于首次将PBR(基于物理的渲染)材质生成技术与几何-纹理解...
2025-06-16 新闻资讯
319

SeedVR2:字节跳动与南洋理工大学联合开发的开源视频修复框架
SeedVR2是由字节跳动Seed团队与南洋理工大学联合开发的开源视频修复框架,作为当前最具突破性的视频增强技术之一,其核心创新在于通过扩散对抗后训练(Diffusion Adversarial ...
2025-06-14 新闻资讯
244

AReaL:全异步强化学习框架与推理大模型训练加速引擎
AReaL(Ant Reasoning RL)是蚂蚁技术研究院与清华大学交叉信息研究院联合开发的开源强化学习训练框架,作为全球首个实现全异步训练的推理大模型优化系统,其核心突破在于通过...
2025-06-13 新闻资讯
307

AlphaOne:动态调控大模型推理节奏的智能思考框架
AlphaOne是由伊利诺伊大学厄巴纳-香槟分校与加州大学伯克利分校联合研发的创新性推理控制框架,其核心突破在于通过参数化动态调控技术,解决了大型语言模型在"快速直觉反应"与...
2025-06-12 新闻资讯
249