电脑软件 手机软件

MiDashengLM:小米开源的跨场景声音理解大模型

原创 2025-08-05 10:28:58电脑软件
636

一、MiDashengLM是什么

MiDashengLM 是小米集团旗下"MiLM Plus"团队于2025年8月4日正式发布并全量开源的声音理解大模型,基于Apache 2.0开源协议向全球开发者开放。作为小米"人-车-家全生态"战略的核心技术组件,该模型以Xiaomi Dasheng音频编码器为核心,结合Qwen2.5-Omni-7B Thinker自回归解码器,通过创新的"通用音频描述"(General Audio Caption)技术路线,实现了对语音、环境声音和音乐的统一语义理解

与传统依赖语音识别(ASR)技术的音频模型不同,MiDashengLM突破了仅能转录语音内容的局限,将所有音频信息(包括音乐、环境声等非语音数据)整合为单一文本表达,实现复杂场景的全息理解。在22个公开评测集上刷新了多模态大模型的最好成绩(SOTA),尤其在非语音类理解任务上显著优于作为Qwen2.5-Omni、Kimi-Audio等模型音频编码器的Whisper。

二、功能特色

1. 速度与精度的双重突破

MiDashengLM-7B在推理效率上实现了质的飞跃。对于单个样本推理的情形(batch size=1),其首个token预测时间(TTFT)仅为Qwen2.5-Omni-7B的1/4,针对10秒音频输入,TTFT最低仅需40毫秒。在批次处理方面,在80GB GPU上处理30秒音频并生成100个token的测试中,MiDashengLM可设置batch size为512,而Qwen2.5-omni-7B在batch size设置为16时即出现显存溢出(OOM)。同等显存条件下,其数据吞吐效率达到竞品的20.2倍,大幅降低了计算成本。

2. 创新的通用音频描述能力

MiDashengLM采用通用音频描述对齐范式,彻底改变了传统ASR转录数据仅关注语音内容而丢弃环境声音和音乐信息的局限。通过非单调的全局语义映射,模型能够捕捉说话人情感、空间混响等关键声学特征,学习音频场景的深层语义关联。测试显示,在音频描述任务(AutoACD数据集)中,其FENSE得分达66.52,领先Kimi-Audio-Instruct 48%;在场景推理(MECAT-QA开放问答)中平均FENSE达62.08,远超Qwen2.5-Omni的43.74。

3. 全栈开源与透明可复现

不同于Qwen2.5-Omni等未公开训练数据细节的模型,MiDashengLM100%基于公开数据训练,涵盖五大类110万小时资源,包括语音识别、环境声音、音乐理解、语音副语言和问答任务等领域。小米完整公开了77个数据源的详细配比,技术报告披露了从音频编码器预训练到指令微调的全流程细节。模型以宽松的Apache 2.0协议发布,明确支持学术研究和商业落地。

midashenglm.webp

三、技术细节

1. 架构设计

MiDashengLM采用双模块架构:Xiaomi Dasheng作为音频编码器,Qwen2.5-Omni-7B Thinker作为自回归解码器。Xiaomi Dasheng是小米此前发布的优秀声音基座模型,在国际上首次突破AudioSet 50+ mAP,并在HEAR Benchmark环境声、语音、音乐三大领域建立领先优势。该编码器参数规模为6.3亿,支持16kHz可变长输入,较Whisper固定30秒窗口减少75%冗余计算。在音频编码器设计上,团队通过优化将其输出帧率从Qwen2.5-Omni的25Hz降至5Hz(降幅80%),显著降低了计算负载。编码器在评估通用能力的X-ARES Benchmark上,多项关键任务尤其是非语音类理解任务表现突出。

2. 训练范式革新

MiDashengLM的训练数据通过多专家分析管道生成:首先对原始音频使用各种专家模型作语音、人声、音乐和环境声学的细粒度标注,包括使用Dasheng-CED模型预测2秒粒度的声音事件,再通过DeepSeek-R1推理大模型合成统一描述。全部训练数据的原始标签在预训练中被弃用,只采用新生成的丰富文本描述标签,迫使模型学习更全面的声音信息。来自ACAV100M的开源数据集经过上述流程重新标注后,形成了新的ACAVCaps训练集(38662小时公开音频)和MECAT Benchmark。数据分布经过精心设计,预训练阶段90%采样来自ASR数据集但使用描述文本代替ASR转录文本,剩余10%分配给声音、音乐等专业任务。

3. 高效推理实现

MiDashengLM的高效性源于多项技术创新:

  • token级负载均衡:优化注意力机制的计算分配

  • KV通信重叠:在分布式训练中实现计算与通信并行

  • 重物质化感知的梯度检查点算法:减少显存占用

这些技术使得模型在Llama-7B架构上支持512K长序列训练,相比Ring Self-Attention获得4.45-5.64倍加速,相比Megatron-LM with FlashAttention实现1.24-2.01倍加速。在实际部署中,80GB显存环境下每秒可处理显著更多的30s音频样本。

四、应用场景

1. 智能家居

在智能家居领域,MiDashengLM能够识别家庭环境中的各种声音,如门铃声、婴儿哭声、烟雾报警声等,并及时通知用户。与智能音箱、智能电视等设备结合后,可通过语音交互为用户提供更加自然和流畅的控制体验。特别值得一提的是其创新的"打个响指"环境音关联IoT控制能力,通过简单的声音手势即可触发智能设备操作。

2. 智能汽车

对于智能汽车,MiDashengLM可在驾驶过程中提供实时的声音反馈和交互。当车辆检测到异常声音时,模型能够快速分析并告知驾驶员可能的问题所在。行业首发的车外唤醒防御功能可有效防止误唤醒;增强哨兵模式能精准识别划车等异常声响,这些都有MiDashengLM作为核心算法赋能。同时,它还可以在驾驶过程中为用户提供语音导航、信息查询等服务,提高驾驶的安全性和便利性。

3. 语音助手与音频生产

在语音助手领域,MiDashengLM能够为用户提供更加准确和个性化的语音识别和交互服务。例如在用户练习唱歌或外语发音时,模型可提供专业反馈并制定针对性提升方案。在音频生产方面,基于Xiaomi Dasheng的Dasheng-denoiser降噪模型已开源,它从带噪语音中提取音频嵌入向量,通过降噪编码器处理后生成干净语音,将在Interspeech 2025展示。

4. 无障碍服务与专业领域

模型还适用于实时会议摘要无障碍音频导航等场景。在专业领域如音乐制作、影视后期中,其统一的音频描述能力可自动生成包含音乐风格、声学环境等维度的丰富元数据。多语言ASR能力也表现优异,在印尼语、越南语、泰语识别错误率均小幅优于同类模型;英语LibriSpeech test-clean词错误率仅3.7%。

midashenglm2.webp

五、相关链接

  • GitHub主页:https://github.com/xiaomi-research/dasheng-lm

  • 模型参数:Hugging Face: https://huggingface.co/mispeech/midashenglm-7b

  • 魔搭社区: https://modelscope.cn/models/midasheng/midashenglm-7b

  • 网页Demo: https://xiaomi-research.github.io/dasheng-lm

六、总结

MiDashengLM-7B作为小米在声音理解领域的重要突破,通过创新的通用音频描述训练策略和高效的架构设计,实现了对语音、环境声与音乐的跨领域统一理解,在22个公开评测集上刷新多项SOTA记录。其卓越的推理效率(单样本TTFT仅为同类1/4、批次吞吐量达竞品20倍)和全栈开源特性(100%公开数据、77个数据源透明可查),使其成为智能家居、汽车座舱和语音助手等场景的理想选择。通过GitHub、Hugging Face等平台开放的完整技术栈,小米为开发者社区提供了从研究到商用的全方位支持,推动声音理解技术向更智能、更自然的方向发展。

声音理解大模型 ai大模型 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
484

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
469

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
517

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
485

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
521

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
495