DreaMoving:图片+文字提示就能生成高质量舞蹈视频

站长之家 2023-12-12 15:40:54新闻资讯
165

DreaMoving由阿里巴巴集团的一组研究人员倾力打造,一种基于扩散模型的可控视频生成框架。该框架的核心目标基于图文就能生成高质量、定制化的人类舞蹈视频。

DreaMoving以其出色的扩散模型为基础,能够根据人物的身份和姿势序列生成目标身份在任何地方跳舞的视频。

DreaMoving 可以生成高质量和高保真度的视频,给定指导序列和简单的内容描述,例如文本和参考图像作为输入。具体来说,DreaMoving 通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的综合视频外观控制来展示身份控制的熟练程度。

比如你“投喂”一张人像,以及一段prompt就能生成对应的视频,而且改变prompt,人物背景和身上的衣服也会跟着变化。

为实现这一目标,该技术引入了Video ControlNet和Content Guider两个关键组件。

Video ControlNet:这是一个图像ControlNet,通过在每个U-Net块后注入运动块,处理控制序列(姿势或深度)以产生额外的时间残差。这有效实现了对运动的控制。

Content Guider:该组件负责将输入文本提示和外观表达,如人脸(衣物是可选的),转换为内容嵌入,实现跨注意力的传递。

DreaMoving.png

值得一提的是,目前DreaMoving项目并没有开源代码。

项目网址:https://dreamoving.github.io/dreamoving/

论文网址:https://arxiv.org/abs/2312.05107

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

LiblibAI接入阿里通义大模型 推出10秒AI视频生成功能
近日,国内AI图像创作领域的领军平台LiblibAI宣布一项重大举措——接入阿里通义系列大模型,这一动作显著提升了其AI创作能力,为用户带来了更强大的创作工具。此次接入后,基...
2025-03-25 新闻资讯
186

DeepSeek + 通义万相高效制作AI视频实战详解
随着人工智能技术的飞速发展,AI视频制作正逐渐成为内容创作的新趋势。DeepSeek 和 通义万相 作为两大领先的AI平台,凭借其强大的图像生成和视频编辑能力,为创作者提供了前所...
2025-03-24 编程技术
228

Phantom:字节跳动开源的跨模态对齐AI视频生成框架
Phantom是字节跳动开源的一款先进的AI视频生成框架,它专注于跨模态对齐技术,能够将文本、图像等多种模态的信息有效融合,生成高质量、连贯的视频内容。作为字节跳动在人工智...
2025-02-20 新闻资讯
354

SkyReels-V1:昆仑万维开源的AI短视频生成模型
SkyReels-V1是昆仑万维开发的一款面向AI短剧创作的视频生成模型。它利用先进的深度学习技术,通过结合口型生成、表情生成和肢体生成等多个生成模块,实现了对人物表演细节的精...
2025-02-19 新闻资讯
261

FlashVideo:字节跳动和香港大学联合推出的高分辨率视频生成框架
FlashVideo是一种高效的高分辨率视频生成框架,旨在解决传统单阶段扩散模型在计算成本上的不足。该框架通过两阶段方法生成高分辨率视频,首先使用大型模型在低分辨率下生成与...
2025-02-12 新闻资讯
219

Loopy:字节跳动开发的一款音频驱动的AI视频生成模型
Loopy是由字节跳动和浙江大学联合开发的一款基于音频驱动的AI视频生成模型。它能够将静态照片或图像转化为动态视频,使照片中的人物能够根据输入的音频文件进行面部表情和头部...
2025-01-31 新闻资讯
356