OmniAvatar:阿里巴巴开源的一款音频驱动全身视频生成模型

原创 2025-06-26 10:46:57新闻资讯
742

一、OmniAvatar是什么

OmniAvatar是由阿里巴巴夸克团队开源的一款音频驱动全身视频生成模型,旨在解决现有虚拟人技术中动作生硬、口型同步精度不足、缺乏全身自然交互等问题。该项目通过结合多层次音频嵌入策略LoRA微调技术,实现了从单一参考图像、音频输入和文本提示生成高质量虚拟人视频的能力,支持包括面部表情、手势、身体动作在内的全方位动态表现。

与传统虚拟人技术不同,OmniAvatar的创新性体现在三个方面:

  1. 全身动作同步:突破传统仅聚焦面部动画的局限,实现唇动、手势与身体姿态的协调统一;

  2. 精细化控制:通过文本提示词调节角色情绪(如开心、愤怒)和交互场景(如播客、歌唱);

  3. 动态环境适配:支持虚拟人与周围物体的实时交互及背景调整,适应多样化应用需求。

二、功能特色

1. 高精度口型与全身动作同步

OmniAvatar通过逐像素多层次音频嵌入策略,将音频波形特征与视频帧的像素级动态对齐。例如,当输入一段语音时,模型不仅能精确匹配唇部运动与音素节奏,还能同步生成自然的头部微倾、手势变化等全身动作,显著提升虚拟人的表现力。测试数据显示,其口型同步误差比主流模型降低37%,身体动作流畅度提升52%。

2. 多模态输入与精细化控制

支持三类输入组合:

  • 参考图像:单张人物照片即可定义虚拟人外观;

  • 音频:驱动语音或音乐生成对应动作;

  • 文本提示:通过描述词(如“兴奋地挥手讲解”)控制情绪与动作细节。
    例如,输入提示词“悲伤的独白”可生成低头、肩部下垂的忧郁姿态,而“激昂演讲”则触发大幅手势和挺胸动作。

3. 动态交互与场景适配

模型突破静态生成的限制,支持以下交互功能:

  • 物体交互:虚拟人可依据提示词操作周围物体(如拿起话筒唱歌);

  • 背景替换:动态调整场景元素(如切换播客背景板);

  • 多角色生成:通过分轨音频控制不同角色的对话动作(需改进区分度)。

4. 长视频生成优化

针对长视频的连贯性问题,OmniAvatar引入帧重叠机制参考图像嵌入策略

  • 每10帧重叠渲染1帧,减少动作跳跃;

  • 定期强化初始参考图像特征,避免角色外观漂移。

OmniAvatar.webp

三、技术细节

1. 核心架构

OmniAvatar基于改进的DiT(Diffusion Transformer)模型,整体流程分为三阶段:

  1. 音频编码:Audio Pack模块将音频波形重排并映射为潜在表示(audio latent);

  2. 多条件融合:通过交叉注意力层整合图像、音频和文本特征;

  3. 视频生成:采用分层去噪扩散过程输出视频序列。

2. 关键技术突破

  • 多层级音频嵌入
    对音频信号进行梅尔频谱、音素、韵律三层次分析,分别对应嘴唇微动、面部肌肉和身体大动作的驱动信号,实现“声音-动作”的细粒度匹配。

  • LoRA微调适配
    在DiT每一层注入可训练的LoRA(Low-Rank Adaptation)模块,既保留基础模型的文本控制能力,又新增音频条件响应,避免全参数微调的资源消耗。

  • 时空一致性优化
    采用3D卷积替换2D卷积处理视频帧,并设计时间注意力机制强化动作连贯性。

3. 训练与推理

  • 训练数据:使用10万小时标注视频(含口型、关节坐标),覆盖多语言、多场景;

  • 硬件需求:需至少4块A100 GPU(80G显存)进行全量训练,LoRA微调可降至1块;

  • 推理效率:生成1分钟视频(30fps)约需5分钟(NVIDIA V100),实时性待优化。

四、应用场景

1. 虚拟内容创作

  • 播客与教育视频:将音频脚本自动转为虚拟讲师视频,支持多语言口型同步;

  • 动态广告:生成带手势的产品讲解虚拟人,适配不同地区语言的配音。

2. 社交与娱乐

  • 虚拟偶像:驱动歌唱表演视频,实现舞蹈动作与歌词节奏的精准匹配;

  • 游戏NPC:为角色添加基于对话的实时动画,增强沉浸感。

3. 企业服务

  • AI客服:结合NLP生成具表情和手势的应答视频(对比NVIDIA Omniverse Avatar的3D光追方案);

  • 远程会议:将语音会议记录转为虚拟人主持的总结视频。

4. 医疗与无障碍

  • 手语翻译:探索将语音转为虚拟人的手语动画(需扩展训练数据);

  • 情感辅助:为自闭症患者生成带情绪提示的交互视频。

五、相关链接

  • 代码仓库:https://github.com/Omni-Avatar/OmniAvatar

  • 论文地址:https://arxiv.org/abs/2506.18866

  • 模型权重:https://huggingface.co/OmniAvatar/OmniAvatar-14B

  • 项目主页:https://omni-avatar.github.io/

六、总结

OmniAvatar作为当前音频驱动虚拟人技术的代表性开源项目,通过多层次音频嵌入、LoRA微调和时空一致性设计,实现了从单一图像到全身动态视频的高质量生成。其核心价值在于将专业级的虚拟人制作流程简化为“图像+音频+文本”的端到端方案,大幅降低创作门槛。尽管在实时性、多角色交互等方面仍有改进空间,但其开源性、多模态控制能力及丰富的应用场景,已为虚拟内容生产、人机交互等领域提供了切实可行的工具链。

ai模型 ai视频生成 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

HunyuanVideo-Foley:腾讯混元团队开源的一款端到端视频音效生成模型
HunyuanVideo-Foley 是腾讯混元团队研发并开源的一款端到端视频音效生成模型,其核心使命是通过人工智能技术,为无声视频自动生成高质量、高同步的音效与背景音乐,打造真正意...
2025-08-29 新闻资讯
621

Seed-OSS:原生512K长上下文与可控推理的开源大语言模型
一、Seed-OSS是什么?Seed-OSS是字节跳动Seed团队开源的大语言模型系列,标志着字节跳动首次进军开源大模型赛道。这一系列模型以其360亿参数的规模、原生512K超长上下文支持...
2025-08-22 新闻资讯
637

RynnEC:阿里达摩院开源的一款专为具身智能设计的世界理解模型
RynnEC是阿里巴巴达摩院开源的一款专为具身智能设计的世界理解模型,属于多模态大语言模型(MLLM)范畴。其核心目标是赋予AI系统对物理世界的深度理解能力,使机器人或智能体...
2025-08-13 新闻资讯
543

RynnVLA-001:基于视频生成与人体轨迹预训练的视觉-语言-动作模型
RynnVLA-001是阿里巴巴达摩院自主研发并开源的视觉-语言-动作(Vision-Language-Action, VLA)模型,专为具身智能(Embodied AI)场景设计。该项目通过大规模第一人称视角视频...
2025-08-13 新闻资讯
592

GPT-OSS:OpenAI开源的高效稀疏激活大语言模型
GPT-OSS(Open-Source Series)是OpenAI发布的两款开源大型语言模型系列,包括GPT-OSS-120B和GPT-OSS-20B两个版本。这是OpenAI自2019年发布GPT-2以来,时隔6年首次回归开源阵...
2025-08-07 新闻资讯
584

Qwen-Image:阿里巴巴通义千问开源的首个图像生成基础模型
Qwen-Image 是阿里巴巴通义千问团队开源的首个图像生成基础模型,属于Qwen系列的重要成员。作为一个200亿参数的多模态扩散变换器(MMDiT)模型,它在复杂文本渲染和精确图像编...
2025-08-06 新闻资讯
550