阿里可控视频生成框架DreaMoving开源

站长之家 2023-12-21 10:53:24新闻资讯
375

今天,阿里可控视频生成框架DreaMoving正式开源,从网友测试的效果来看,其对人物运动的控制还是比较理想的。

DreaMoving.jpg

据介绍,DreaMoving是基于扩散模型的可控视频生成框架,用于产生高质量定制的人类视频。DreaMoving允许用户生成具有高度自定义特征的人类视频,如在沙滩上微笑的女孩,中央公园跳舞的亚洲女孩等。

DreaMoving2.png

代码:https://github.com/dreamoving/dreamoving-project

试玩地址:https://www.modelscope.cn/studios/vigen/video_generation/summary

DreaMoving是一种可以生成高质量和高保真度视频的技术,它能够根据给定的指导序列和简单的内容描述,例如文本和参考图像作为输入,生成视频。

具体来说,DreaMoving通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的综合视频外观控制来展示身份控制的熟练程度。这意味着,只需要“投喂”一张人像和一段提示,就能够生成对应的视频,而且改变提示,人物背景和身上的衣服也会跟着变化。

为了实现这一目标,DreaMoving技术引入了两个关键组件:Video ControlNet和Content Guider。其中,Video ControlNet是一个图像ControlNet,通过在每个U-Net块后注入运动块,处理控制序列(姿势或深度)以产生额外的时间残差,从而有效实现了对运动的控制。而Content Guider组件则负责将输入文本提示和外观表达(如人脸,衣物是可选的)转换为内容嵌入,实现跨注意力的传递。

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Hunyuan-GameCraft:腾讯公司推出的高动态交互式游戏视频生成框架
Hunyuan-GameCraft是腾讯公司推出的一款专为游戏场景设计的高动态交互式视频生成框架,它能够根据用户输入的键盘和鼠标操作信号,从单张静态图像生成具有时间一致性和3D连贯性...
2025-06-25 新闻资讯
485

EX-4D:字节跳动开源的单目到自由视角4D视频生成框架
EX-4D是由字节跳动旗下PICO-MR团队开发的突破性4D视频生成技术,它能够从任意单目(单视角)视频生成对应新视角的高质量视频序列,实现了从2D到4D(3D空间+时间维度)的跨越式...
2025-06-23 新闻资讯
553

LinGen:基于Mamba机制的线性复杂度高清长视频生成框架
LinGen是由普林斯顿大学与Meta联合推出的开源视频生成框架,旨在解决当前视频生成模型计算成本高、效率低下的核心问题。该项目通过创新的MATE(Mamba-Attention混合)架构,将...
2025-06-23 新闻资讯
440

Next-Frame Diffusion:微软与北大联合开发的开源自回归视频生成框架
Next-Frame Diffusion(NFD)是由微软研究院与北京大学联合开发的开源自回归视频生成框架,作为当前最具突破性的实时交互式视频生成技术之一,其核心创新在于通过块状因果注意...
2025-06-14 新闻资讯
530

LLIA:美团开源的低延时音频驱动肖像视频生成框架
LLIA(Low Latency Interactive Avatar)是由美团技术团队开发并开源的音频驱动肖像视频生成框架,作为当前最具突破性的实时虚拟形象生成技术之一,其核心创新在于将扩散模型...
2025-06-14 新闻资讯
446

MultiTalk:音频驱动的多人口型同步与交互式视频生成框架
MultiTalk是由中山大学联合美团、香港科技大学研发的突破性视频生成框架,专门解决多人对话场景下的音频-视频同步难题。作为首个支持多音频流精准绑定的开源项目,它实现了从...
2025-06-11 新闻资讯
697