HunyuanPortrait:腾讯混元与清华大学联合开发的肖像动画生成框架

原创 2025-05-30 10:51:37新闻资讯
491

HunyuanPortrait是什么

HunyuanPortrait是由腾讯混元团队与清华大学联合开发的基于扩散模型的肖像动画生成框架,于2025年3月首次公开发布,并于5月28日正式开源。该项目通过创新的隐式条件控制技术,实现了从单张参考图像和驱动视频生成高保真、时序一致的肖像动画,在面部表情迁移和头部姿态控制方面达到当前最先进的性能水平。

传统肖像动画方法通常面临三大挑战:身份保持困难(生成的动画与参考图像人物身份不一致)、运动控制不足(难以精确捕捉驱动视频中的微妙表情变化)以及时序不连贯(生成的视频帧间存在抖动或突变)。HunyuanPortrait通过解耦身份与动作的隐式表征学习,结合稳定视频扩散(SVD)的强大生成能力,成功解决了这些技术难题。实验表明,该框架在跨重演任务中的身份相似度达到8.87(满分10分),显著优于LivePortrait(8.71)和AniPortrait(7.95)等现有方法。

功能特色

1. 隐式条件控制机制

HunyuanPortrait的核心创新在于采用隐式表征而非显式关键点来控制动画生成。传统方法依赖面部关键点作为控制信号,容易受面部形状差异影响导致身份失真。而HunyuanPortrait通过预训练的运动编码器提取驱动视频中的表情和姿态信息,将其编码为与身份无关的隐式控制信号,再通过基于注意力的适配器注入到扩散模型中。这种设计使生成的动画既能精确复现驱动视频中的表情变化,又能保持参考图像中的人物身份特征。

2. 双路径特征提取架构

项目设计了细粒度外观提取器强度感知运动提取器的双路径架构,分别处理身份信息和动作信息:

  • 外观提取器:集成ArcFace编码器和DiNOv2骨干网络,通过ID感知多尺度适配器(IMAdapter)增强身份一致性。该组件能捕捉面部纹理、几何形状等细粒度特征,在跨重演任务中将身份相似度提升15%。

  • 运动提取器:创新性地引入运动记忆库和强度感知编码器(IAME),前者通过64个可学习记忆单元增强时序连贯性,后者根据表情扭曲程度和头部运动幅度动态调整特征表示,使微表情生成准确率提高40%。

3. 稳定视频生成能力

基于稳定视频扩散模型(SVD)的骨干网络,HunyuanPortrait展现出卓越的时序一致性空间细节表现力。相较于基于图像扩散模型的方法(如X-Portrait),HunyuanPortrait生成的视频在Fréchet视频距离(FVD)指标上从416.41降至333.48,关键点平均距离(LMD)从6.23改善至2.02,证明其能生成更平滑自然的动画效果。项目还采用DDIM采样器和无分类器引导(classifier-free guidance)技术,在保证质量的同时提升生成效率。

4. 多风格适配能力

通过Ani-meGANv3风格迁移和数据增强策略,框架展现出强大的风格泛化能力。训练阶段将真实人像数据转换为动漫等多种风格,使模型能处理不同艺术风格的输入。测试表明,无论是写实照片还是卡通形象,HunyuanPortrait都能保持一致的动画质量,为游戏和动漫产业提供了便捷的工具支持。

HunyuanPortrait.webp

技术架构

1. 整体框架设计

HunyuanPortrait的系统架构包含三大核心模块:

  1. 运动信息编码:使用预训练编码器处理驱动视频的面部裁剪区域,生成隐式运动表征。通过强度感知机制和运动记忆库增强特征的动态范围感知与时序连贯性。

  2. 身份信息编码:基于ArcFace和DiNOv2提取参考图像的多尺度身份特征,通过IMAdapter融合块级别和身份感知特征,确保生成的动画保持参考人物的外貌特征。

  3. 条件扩散生成:以SVD的UNet为骨干,通过空间卷积层注入姿态引导信号,在注意力模块中融合运动和身份特征,最终生成潜在空间表示并由VAE解码为视频帧。

2. 关键算法创新

强度感知运动编码器(IAME)

该组件通过两个维度量化运动强度:

  1. 表情强度:计算面部关键点相对于中性表情的扭曲程度

  2. 姿态强度:评估头部运动的整体幅度
    将连续强度值离散化为64个等级并嵌入为特征向量,与原始运动特征拼接后输入适配器,使模型能根据动作幅度自适应调整生成细节。

身份感知多尺度适配器(IMAdapter)

如图3所示,该结构通过并行卷积路径处理不同尺度的身份特征:

  1. 使用线性投影对视觉特征降维

  2. 通过多尺度卷积模块提取局部细节

  3. 与身份特征进行交叉注意力计算

  4. 恢复原始维度后与块级别特征合并
    这种设计在跨重演任务中将身份相似度从8.09提升至8.87。

3. 训练优化策略

项目团队实施了多项创新训练技术:

  • 数据增强:采用颜色抖动消除肤色对运动编码的干扰,使用Ani-meGANv3进行风格迁移增强泛化性

  • 姿态增强:随机移除骨骼边模拟推理时检测器误差,提升空间控制鲁棒性

  • 优化配置:使用AdamW优化器(学习率1e-5),固定VAE和DiNOv2参数,梯度裁剪阈值0.99

  • 硬件配置:在128块A100 GPU上训练3天完成,推理阶段采用DDIM采样器(CFG scale=2.0)

4. 评估指标体系

HunyuanPortrait采用全面的定量与定性评估方法:

  • 自我重演:FID-VID、FVD、PSNR、SSIM、LPIPS、LMD

  • 跨重演:AED、APD、ArcFace相似度

  • 用户研究:面部动作、视频质量、时间平滑度(10分制)
    测试数据显示,在所有指标上均显著优于现有方法,特别是在跨重演场景中身份相似度达8.87,视频质量4.69,时间平滑度4.61。

应用场景

1. 游戏角色动画

HunyuanPortrait可大幅简化游戏NPC的表情动画制作流程。开发者只需提供角色原画和真人表演视频,即可生成符合角色设定的表情动画,省去传统骨骼绑定和逐帧调整的繁琐流程。其多风格适配能力特别适合需要多样化角色形象的开放世界游戏。

2. 虚拟社交内容

在虚拟偶像和社交平台中,框架可用于:

  • 动态表情包:将明星或用户照片转化为生动表情序列

  • 虚拟直播:通过真人驱动生成虚拟主播的实时表情

  • 个性化头像:让静态头像照片具备眨眼、微笑等自然动作

3. 影视特效预演

影视制作中可利用该技术:

  • 快速概念验证:在正式拍摄前预览角色表情效果

  • 数字替身:为特技演员生成与主角匹配的面部动画

  • 后期修复:补拍或修改特定镜头中的演员表情

4. 在线教育与培训

框架适用于:

  • 虚拟教师:让历史人物或科学家的肖像"活起来"进行讲解

  • 医疗培训:模拟患者面部表情变化辅助诊断教学

  • 语言学习:生成标准口型的外语教学视频

5. 无障碍通信

可将手语视频中的表情迁移至用户照片,帮助听障人士实现更丰富的表情传达。同时也能为视障人士将照片转换为动态触觉反馈。

官方资源

  • 项目主页:https://kkakkkka.github.io/HunyuanPortrait/

  • GitHub仓库:https://github.com/Tencent-Hunyuan/HunyuanPortrait

  • 论文地址:https://arxiv.org/pdf/2503.18860

总结

HunyuanPortrait作为首个基于隐式条件控制的肖像动画扩散框架,通过解耦身份与动作的表示学习,结合稳定视频扩散的强大生成能力,在面部动画的质量、可控性和时序一致性方面树立了新的技术标杆。其创新的强度感知运动编码器和身份感知多尺度适配器,有效解决了跨重演任务中的身份保持难题,使生成动画的身份相似度达到8.87分(满分10分),显著优于现有方法。

ai框架 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
888

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
954

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
743

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
715

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
814

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
723