一、OmniAudio是什么?
OmniAudio是由阿里通义实验室语音团队开发的开源空间音频生成框架,其核心目标是通过AI技术直接从360°全景视频生成一阶Ambisonics(FOA)格式的3D空间音频。这一技术突破了传统视频到音频生成仅支持单声道或立体声的局限,首次实现了对声音方向性的精准建模,使虚拟现实(VR)、增强现实(AR)等沉浸式场景中的听觉体验与视觉内容高度同步。
与常规音频生成模型不同,OmniAudio专注于解决两大技术痛点:
空间信息缺失:传统技术生成的音频无法反映声源在三维空间中的位置变化;
全景视频利用率低:固定视角视频无法提供360°环境中的完整视觉上下文。
通过创新的两阶段训练方法和自建的大规模数据集,OmniAudio实现了音频质量与空间定位精度的双重突破。
二、功能特色
真实的空间音频重建
生成的FOA音频包含W(声压)、X(前后)、Y(左右)、Z(垂直)四通道数据,能精确模拟声源方向。例如,在VR音乐会场景中,用户头部转动时,乐器声的方位感仍能保持稳定。
支持动态声场模拟,如移动的火车声由远及近时,X/Y通道的强度变化与视频画面完全同步。
全景视觉-音频对齐
通过双分支视频编码器分别提取360°视频的全局场景特征和局部视角细节,确保生成的音频与视觉内容在时空上严格匹配。例如,视频中左侧爆炸的画面必然对应X/Y通道的左侧声场强化。
高效的数据处理能力
基于自研的Sphere360数据集(包含10.3万条高质量360°视频-FOA音频对,总时长288小时),覆盖288种音频事件类型,如自然声、机械声、人声等。数据清洗采用多算法联合验证(如ImageBind检测音视频一致性),错误率低于0.5%。
轻量化推理与兼容性
模型支持PyTorch Lightning框架,可在NVIDIA A100 GPU上高效微调,单次推理延迟控制在200ms以内。
开源代码提供Gradio交互界面,用户可通过拖拽视频或刷选运动路径自定义声场轨迹。
三、技术细节
模型架构
全局分支:使用MetaCLIP-Huge提取360°视频的整体场景特征(如光照、空间布局);
局部分支:从视频中裁剪FOV(视场角)片段,编码局部动态细节(如物体运动轨迹)。
双模态编码器:
流匹配生成器:基于扩散模型改进,通过预测速度场从噪声中逐步重建FOA音频的潜在表示,支持掩码训练以增强鲁棒性。
训练流程
第一阶段(自监督预训练):
利用非空间音频(如VGGSound数据集)转换为伪FOA格式(W=左+右,X=左-右,Y/Z=0),训练模型学习通用音频特征。采用随机时间窗掩码(掩码概率p=0.62,最小跨度l=0.62秒)迫使模型掌握时序规律。第二阶段(有监督微调):
仅使用真实FOA数据,提高掩码概率至p=0.8,强化模型对声源方向(W/X/Y/Z通道关系)的建模能力。关键优化
伪FOA转换:解决真实FOA数据稀缺问题,预训练阶段数据量扩大10倍;
双分支条件融合:全局特征经最大池化后作为Transformer条件,局部特征与音频潜在序列逐元素相加,实现细粒度控制。
四、应用场景
虚拟现实与游戏
为VR游戏生成动态3D音效,如玩家转身时敌人脚步声的方位变化;
影视制作中自动匹配360°视频的环绕声场,降低后期制作成本。
智能驾驶与机器人
车载系统通过360°摄像头实时生成环境声场,辅助驾驶员识别盲区危险(如救护车鸣笛方向);
服务机器人结合空间音频提升人机交互的自然性。
远程协作与教育
在线会议系统支持空间音频传输,还原参会者的真实位置感;
历史遗址VR导览中,同步生成与古建筑场景匹配的环境声(如钟声、人群嘈杂声)。
无障碍技术
为视障者提供基于空间音频的环境导航,如通过声音提示障碍物方位。
五、相关链接
项目主页:https://omniaudio-360v2sa.github.io/
代码与数据集:https://github.com/liuhuadai/OmniAudio
技术论文:https://arxiv.org/abs/2504.14906
总结
OmniAudio通过创新的两阶段训练框架与大规模Sphere360数据集,首次实现了从360°视频到FOA空间音频的高保真生成,其技术价值体现在空间定位精度(ΔAngular误差仅1.27°)、视听对齐质量(MOS-AF评分87.85)及跨场景泛化能力(覆盖288类音频事件)。这一开源项目不仅为沉浸式体验提供了关键技术支撑,更推动了多模态感知领域的算法进步。
本文由@ai资讯 原创发布。
该文章观点仅代表作者本人,不代表本站立场。本站不承担相关法律责任。
如若转载,请注明出处:https://www.zhanid.com/news/omniaudio.html