HunyuanPortrait:腾讯混元与清华大学联合开发的肖像动画生成框架

原创 2025-05-30 10:51:37新闻资讯
334

HunyuanPortrait是什么

HunyuanPortrait是由腾讯混元团队与清华大学联合开发的基于扩散模型的肖像动画生成框架,于2025年3月首次公开发布,并于5月28日正式开源。该项目通过创新的隐式条件控制技术,实现了从单张参考图像和驱动视频生成高保真、时序一致的肖像动画,在面部表情迁移和头部姿态控制方面达到当前最先进的性能水平。

传统肖像动画方法通常面临三大挑战:身份保持困难(生成的动画与参考图像人物身份不一致)、运动控制不足(难以精确捕捉驱动视频中的微妙表情变化)以及时序不连贯(生成的视频帧间存在抖动或突变)。HunyuanPortrait通过解耦身份与动作的隐式表征学习,结合稳定视频扩散(SVD)的强大生成能力,成功解决了这些技术难题。实验表明,该框架在跨重演任务中的身份相似度达到8.87(满分10分),显著优于LivePortrait(8.71)和AniPortrait(7.95)等现有方法。

功能特色

1. 隐式条件控制机制

HunyuanPortrait的核心创新在于采用隐式表征而非显式关键点来控制动画生成。传统方法依赖面部关键点作为控制信号,容易受面部形状差异影响导致身份失真。而HunyuanPortrait通过预训练的运动编码器提取驱动视频中的表情和姿态信息,将其编码为与身份无关的隐式控制信号,再通过基于注意力的适配器注入到扩散模型中。这种设计使生成的动画既能精确复现驱动视频中的表情变化,又能保持参考图像中的人物身份特征。

2. 双路径特征提取架构

项目设计了细粒度外观提取器强度感知运动提取器的双路径架构,分别处理身份信息和动作信息:

  • 外观提取器:集成ArcFace编码器和DiNOv2骨干网络,通过ID感知多尺度适配器(IMAdapter)增强身份一致性。该组件能捕捉面部纹理、几何形状等细粒度特征,在跨重演任务中将身份相似度提升15%。

  • 运动提取器:创新性地引入运动记忆库和强度感知编码器(IAME),前者通过64个可学习记忆单元增强时序连贯性,后者根据表情扭曲程度和头部运动幅度动态调整特征表示,使微表情生成准确率提高40%。

3. 稳定视频生成能力

基于稳定视频扩散模型(SVD)的骨干网络,HunyuanPortrait展现出卓越的时序一致性空间细节表现力。相较于基于图像扩散模型的方法(如X-Portrait),HunyuanPortrait生成的视频在Fréchet视频距离(FVD)指标上从416.41降至333.48,关键点平均距离(LMD)从6.23改善至2.02,证明其能生成更平滑自然的动画效果。项目还采用DDIM采样器和无分类器引导(classifier-free guidance)技术,在保证质量的同时提升生成效率。

4. 多风格适配能力

通过Ani-meGANv3风格迁移和数据增强策略,框架展现出强大的风格泛化能力。训练阶段将真实人像数据转换为动漫等多种风格,使模型能处理不同艺术风格的输入。测试表明,无论是写实照片还是卡通形象,HunyuanPortrait都能保持一致的动画质量,为游戏和动漫产业提供了便捷的工具支持。

HunyuanPortrait.webp

技术架构

1. 整体框架设计

HunyuanPortrait的系统架构包含三大核心模块:

  1. 运动信息编码:使用预训练编码器处理驱动视频的面部裁剪区域,生成隐式运动表征。通过强度感知机制和运动记忆库增强特征的动态范围感知与时序连贯性。

  2. 身份信息编码:基于ArcFace和DiNOv2提取参考图像的多尺度身份特征,通过IMAdapter融合块级别和身份感知特征,确保生成的动画保持参考人物的外貌特征。

  3. 条件扩散生成:以SVD的UNet为骨干,通过空间卷积层注入姿态引导信号,在注意力模块中融合运动和身份特征,最终生成潜在空间表示并由VAE解码为视频帧。

2. 关键算法创新

强度感知运动编码器(IAME)

该组件通过两个维度量化运动强度:

  1. 表情强度:计算面部关键点相对于中性表情的扭曲程度

  2. 姿态强度:评估头部运动的整体幅度
    将连续强度值离散化为64个等级并嵌入为特征向量,与原始运动特征拼接后输入适配器,使模型能根据动作幅度自适应调整生成细节。

身份感知多尺度适配器(IMAdapter)

如图3所示,该结构通过并行卷积路径处理不同尺度的身份特征:

  1. 使用线性投影对视觉特征降维

  2. 通过多尺度卷积模块提取局部细节

  3. 与身份特征进行交叉注意力计算

  4. 恢复原始维度后与块级别特征合并
    这种设计在跨重演任务中将身份相似度从8.09提升至8.87。

3. 训练优化策略

项目团队实施了多项创新训练技术:

  • 数据增强:采用颜色抖动消除肤色对运动编码的干扰,使用Ani-meGANv3进行风格迁移增强泛化性

  • 姿态增强:随机移除骨骼边模拟推理时检测器误差,提升空间控制鲁棒性

  • 优化配置:使用AdamW优化器(学习率1e-5),固定VAE和DiNOv2参数,梯度裁剪阈值0.99

  • 硬件配置:在128块A100 GPU上训练3天完成,推理阶段采用DDIM采样器(CFG scale=2.0)

4. 评估指标体系

HunyuanPortrait采用全面的定量与定性评估方法:

  • 自我重演:FID-VID、FVD、PSNR、SSIM、LPIPS、LMD

  • 跨重演:AED、APD、ArcFace相似度

  • 用户研究:面部动作、视频质量、时间平滑度(10分制)
    测试数据显示,在所有指标上均显著优于现有方法,特别是在跨重演场景中身份相似度达8.87,视频质量4.69,时间平滑度4.61。

应用场景

1. 游戏角色动画

HunyuanPortrait可大幅简化游戏NPC的表情动画制作流程。开发者只需提供角色原画和真人表演视频,即可生成符合角色设定的表情动画,省去传统骨骼绑定和逐帧调整的繁琐流程。其多风格适配能力特别适合需要多样化角色形象的开放世界游戏。

2. 虚拟社交内容

在虚拟偶像和社交平台中,框架可用于:

  • 动态表情包:将明星或用户照片转化为生动表情序列

  • 虚拟直播:通过真人驱动生成虚拟主播的实时表情

  • 个性化头像:让静态头像照片具备眨眼、微笑等自然动作

3. 影视特效预演

影视制作中可利用该技术:

  • 快速概念验证:在正式拍摄前预览角色表情效果

  • 数字替身:为特技演员生成与主角匹配的面部动画

  • 后期修复:补拍或修改特定镜头中的演员表情

4. 在线教育与培训

框架适用于:

  • 虚拟教师:让历史人物或科学家的肖像"活起来"进行讲解

  • 医疗培训:模拟患者面部表情变化辅助诊断教学

  • 语言学习:生成标准口型的外语教学视频

5. 无障碍通信

可将手语视频中的表情迁移至用户照片,帮助听障人士实现更丰富的表情传达。同时也能为视障人士将照片转换为动态触觉反馈。

官方资源

  • 项目主页:https://kkakkkka.github.io/HunyuanPortrait/

  • GitHub仓库:https://github.com/Tencent-Hunyuan/HunyuanPortrait

  • 论文地址:https://arxiv.org/pdf/2503.18860

总结

HunyuanPortrait作为首个基于隐式条件控制的肖像动画扩散框架,通过解耦身份与动作的表示学习,结合稳定视频扩散的强大生成能力,在面部动画的质量、可控性和时序一致性方面树立了新的技术标杆。其创新的强度感知运动编码器和身份感知多尺度适配器,有效解决了跨重演任务中的身份保持难题,使生成动画的身份相似度达到8.87分(满分10分),显著优于现有方法。

ai框架 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

ART(Agent Reinforcement Trainer):OpenPipe开源的强化学习(RL)框架
ART(Agent Reinforcement Trainer)是由OpenPipe团队开发的一个全新开源强化学习(RL)框架,专门设计用于训练各类智能体(Agent)在各种任务中实现更优表现。作为一个基于P...
2025-07-16 新闻资讯
232

RoboOS:开源跨本体具身大小脑协作框架
RoboOS 是北京智源人工智能研究院研发的跨本体具身大小脑协作框架,旨在解决当前具身智能落地过程中的通用性适配与多机调度难题。该系统基于"大脑-小脑"分层架构设计,通过云...
2025-07-16 新闻资讯
230

Kimi-K2:月之暗面(MoonshotAI)推出的新一代基础大模型
Kimi-K2 是月之暗面科技(MoonshotAI)推出的新一代基础大模型,属于该公司Kimi系列模型的最新迭代版本。项目包含两个主要开源版本:Kimi-K2-Base(基础预训练模型)和Kimi-K2-In...
2025-07-15 新闻资讯
268

RoboBrain2.0:北京智源研究院联合北京大学团队开源的具身视觉语言基础模型
RoboBrain2.0是由北京智源研究院联合北京大学团队开发的全球最强开源具身视觉语言基础模型,代表了当前具身智能领域的最前沿技术成果。作为第二代具身大脑大模型,它旨在统一...
2025-07-15 新闻资讯
238

Agentica:用极简代码构建多智能体工作流的开源框架
Agentica 是一个开源的多智能体工作流构建框架,旨在通过极简的代码量(仅需10行左右)帮助开发者快速构建复杂的智能体应用程序。该项目基于大型语言模型(LLM)技术,提供了...
2025-07-14 新闻资讯
268

Genkit:Google Firebase团队开发的统一全栈AI应用开发框架
Genkit 是由Google Firebase团队开发并投入生产的开源统一全栈AI应用开发框架,旨在为开发者提供一套完整的工具链和标准化接口,用于构建、测试和部署全栈AI驱动的应用程序。
2025-07-11 新闻资讯
259