网站导航

新闻资讯 编程技术 电脑知识 站长之家 自媒体

AI模型(DiffPortrait3D)：一张肖像图就能创造各种逼真表情3D表情

站长之家 2023-12-28 15:49:23新闻资讯

543

近期，大型语言模型(LLMs)在人工智能社区引起了轰动，归功于其出色的能力和性能。这些模型在几乎所有基于AI子领域的行业中展现出了非凡的应用，包括自然语言处理、自然语言生成和计算机视觉。尽管计算机视觉，尤其是扩散模型引起了极大关注，但仍然存在使用有限输入生成高保真、连贯新视角的挑战。

为了应对这一挑战，字节跳动的研究团队最近推出了DiffPortrait3D，这是一种独特的条件扩散模型，旨在从一张野外拍摄的肖像中创建逼真的、3D一致的视图。DiffPortrait3D可以将一张二维(2D)非受限制的肖像重建为人脸的三维(3D)表示。

简单来说，给定一张彩色照片作为输入，该项目的目标是合成具有保持身份和面部表情的合理但一致的面部细节，以新的相机视角呈现出来。与耗时的优化和微调不同，这种零样本方法能够很好地推广到具有不规定相机视角、极端面部表情和多样艺术描绘的任意人脸肖像。其核心思想是利用在大规模图像数据集上预训练的2D扩散模型作为渲染骨架，同时使用解耦的关注控制外观和相机姿势的去噪引导。

为了实现这一点，首先将参考图像的外观上下文注入到冻结的UNets的自注意层中。然后，使用一个新颖的条件控制模块来解释相机姿势，该模块通过观察来自相同视角的一个交叉主体的条件图像。此外，研究人员插入一个可训练的跨视图注意模块来增强视图一致性，这进一步通过推断期间的新颖3D感知噪声生成过程得以加强。

DiffPortrait3D使用特殊的条件控制模块来改变渲染视图。该模块分析从相同角度拍摄的主体的条件图像，以解释相机的态度。这使得模型能够从不同视角结合一致的面部特征。

为了进一步提高视觉一致性，还引入了一个可训练的交叉视图注意力模块。在面对严重的面部表情或不定姿态的相机视角可能导致困难的情况下，这个模块尤其有帮助。

为了确保推理过程的弹性，还包括了一种独特的3D感知噪声生成机制。这一阶段增加了合成图像的整体稳定性和逼真感。团队在严格的多视角和野外基准测试上评估了DiffPortrait3D的性能，展示了在各种艺术风格和环境设置下产生逼真高质量面部重建的最新成果。

该技术主要特点包括:

1. 引入了一种独特的零样本方法，通过扩展2D稳定扩散，从单一肖像创建3D一致的新视图。
2. 该方法在独特视图合成方面取得了令人印象深刻的成就，支持外观、表情、态度和风格各异的肖像，无需繁琐的微调。
3. 使用明确分离的外观和相机视图控制系统，实现了有效的相机操作，而不影响主体的表情或身份。
4. 该方法结合了交叉视图注意力模块和3D感知噪声生成技术，提供了3D视图的长程一致性。

项目网址:https://github.com/FreedomGu/DiffPortrait3D

ai

本文来源于#站长之家，由@tom 整理发布。如若内容造成侵权/违法违规/事实不符，请联系本站客服处理!

该文章观点仅代表作者本人，不代表本站立场。本站不承担相关法律责任。

如若转载，请注明出处：https://www.zhanid.com/news/377.html

THE END

tom

不图事事圆满但图事事甘心。

相关推荐

gpt币子下架了？别慌！老张拆解真相：AI模型和币圈下架大不同

gpt币子下架了？别慌！老张拆解真相：AI模型和币圈下架大不同

别闹了！GPT-4o根本不是加密货币最近粉丝私信刷爆了。都在问GPT币下架的事。我一看就笑了。GPT-4o是OpenAI的AI模型啊。它和比特币、以太坊半毛钱关系没有。这事我跟踪了半...

2026-04-02 新闻资讯

213

AI模型是什么意思？一文说清核心概念

AI模型是什么意思？一文说清核心概念

什么是AI模型？ AI模型就是人工智能系统的核心组件。它本质上是一个文件或程序。经过大量数据训练后，它能识别模式、做出预测或自主决策。简单说，它是个“知识包”。比如识...

2026-04-02 新闻资讯

256

HunyuanVideo-Foley：腾讯混元团队开源的一款端到端视频音效生成模型

HunyuanVideo-Foley：腾讯混元团队开源的一款端到端视频音效生成模型

HunyuanVideo-Foley 是腾讯混元团队研发并开源的一款端到端视频音效生成模型，其核心使命是通过人工智能技术，为无声视频自动生成高质量、高同步的音效与背景音乐，打造真正意...

2025-08-29 新闻资讯

1085

Seed-OSS：原生512K长上下文与可控推理的开源大语言模型

Seed-OSS：原生512K长上下文与可控推理的开源大语言模型

一、Seed-OSS是什么？Seed-OSS是字节跳动Seed团队开源的大语言模型系列，标志着字节跳动首次进军开源大模型赛道。这一系列模型以其360亿参数的规模、原生512K超长上下文支持...

2025-08-22 新闻资讯

1055

RynnEC：阿里达摩院开源的一款专为具身智能设计的世界理解模型

RynnEC：阿里达摩院开源的一款专为具身智能设计的世界理解模型

RynnEC是阿里巴巴达摩院开源的一款专为具身智能设计的世界理解模型，属于多模态大语言模型（MLLM）范畴。其核心目标是赋予AI系统对物理世界的深度理解能力，使机器人或智能体...

2025-08-13 新闻资讯

905

RynnVLA-001：基于视频生成与人体轨迹预训练的视觉-语言-动作模型

RynnVLA-001：基于视频生成与人体轨迹预训练的视觉-语言-动作模型

RynnVLA-001是阿里巴巴达摩院自主研发并开源的视觉-语言-动作（Vision-Language-Action, VLA）模型，专为具身智能（Embodied AI）场景设计。该项目通过大规模第一人称视角视频...

2025-08-13 新闻资讯

982

推荐工具

热门网站

热门文章

1 ed2k下载工具有哪些：8款广受好评的ed2k下载工具推荐 2 打开浏览器显示空白页about:blank怎么办？ 3 下划线“_”怎么打？电脑中下划线符号输入方法详解 4 Windows11系统中获取帮助的9种方法详解 5 网页打不开提示“CONNECTION_RESET”的原因及解决方法 6 Word顶端有一条横线怎样删除？删除Word顶部横线的几种方法

图文资讯

图片压缩软件有哪些？5款免费好用的图片压缩软件推荐

软件下载

Cursor
下载
Cursor 是一款创新的AI代码编辑器...
Maye Lite
下载
Maye Lite是一个专注于文件快速...
微信开发者工具
下载
微信开发者工具是一款专门针对于...
图吧工具箱
下载
图吧工具箱是电脑系统和硬件维护...
ShareX
下载
ShareX是一款免费的开源程序，不...
HeyGem
下载
Heygem 是一款专为Windows系统设...