DreaMoving:图片+文字提示就能生成高质量舞蹈视频

站长之家 2023-12-12 15:40:54新闻资讯
398

DreaMoving由阿里巴巴集团的一组研究人员倾力打造,一种基于扩散模型的可控视频生成框架。该框架的核心目标基于图文就能生成高质量、定制化的人类舞蹈视频。

DreaMoving以其出色的扩散模型为基础,能够根据人物的身份和姿势序列生成目标身份在任何地方跳舞的视频。

DreaMoving 可以生成高质量和高保真度的视频,给定指导序列和简单的内容描述,例如文本和参考图像作为输入。具体来说,DreaMoving 通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的综合视频外观控制来展示身份控制的熟练程度。

比如你“投喂”一张人像,以及一段prompt就能生成对应的视频,而且改变prompt,人物背景和身上的衣服也会跟着变化。

为实现这一目标,该技术引入了Video ControlNet和Content Guider两个关键组件。

Video ControlNet:这是一个图像ControlNet,通过在每个U-Net块后注入运动块,处理控制序列(姿势或深度)以产生额外的时间残差。这有效实现了对运动的控制。

Content Guider:该组件负责将输入文本提示和外观表达,如人脸(衣物是可选的),转换为内容嵌入,实现跨注意力的传递。

DreaMoving.png

值得一提的是,目前DreaMoving项目并没有开源代码。

项目网址:https://dreamoving.github.io/dreamoving/

论文网址:https://arxiv.org/abs/2312.05107

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

PreenCut:一款基于大语言模型(LLM)的开源AI视频剪辑工具
PreenCut 是一款基于大语言模型(LLM)的开源视频剪辑工具,旨在通过AI技术彻底革新传统视频剪辑中素材处理效率低下、语义关联识别困难的痛点。与传统剪辑软件依赖时间轴手动操...
2025-07-08 新闻资讯
565

VideoLingo:开源全自动视频翻译工具,一站式AI视频本地化神器
VideoLingo 是是一款开源的全自动视频翻译与本地化工具,旨在通过人工智能技术解决跨语言视频内容传播的障碍。它集成了语音识别、大语言模型翻译、字幕优化和文本转语音(TTS...
2025-07-03 新闻资讯
563

FlowDirector:西湖大学AGI实验室开源的一款无需训练的视频编辑框架
FlowDirector是西湖大学AGI实验室开发的一款无需训练的视频编辑框架,它基于"流匹配"(Flow Matching)范式,能够将任意基于流的视频生成模型改造成有效的视频编辑工具,而无需...
2025-06-26 新闻资讯
460

OmniAvatar:阿里巴巴开源的一款音频驱动全身视频生成模型
OmniAvatar是由阿里巴巴夸克团队开源的一款音频驱动全身视频生成模型,旨在解决现有虚拟人技术中动作生硬、口型同步精度不足、缺乏全身自然交互等问题。该项目通过结合多层次...
2025-06-26 新闻资讯
752

EX-4D:字节跳动开源的单目到自由视角4D视频生成框架
EX-4D是由字节跳动旗下PICO-MR团队开发的突破性4D视频生成技术,它能够从任意单目(单视角)视频生成对应新视角的高质量视频序列,实现了从2D到4D(3D空间+时间维度)的跨越式...
2025-06-23 新闻资讯
565

LinGen:基于Mamba机制的线性复杂度高清长视频生成框架
LinGen是由普林斯顿大学与Meta联合推出的开源视频生成框架,旨在解决当前视频生成模型计算成本高、效率低下的核心问题。该项目通过创新的MATE(Mamba-Attention混合)架构,将...
2025-06-23 新闻资讯
446