阿里可控视频生成框架DreaMoving开源

站长之家 2023-12-21 10:53:24新闻资讯
296

今天,阿里可控视频生成框架DreaMoving正式开源,从网友测试的效果来看,其对人物运动的控制还是比较理想的。

DreaMoving.jpg

据介绍,DreaMoving是基于扩散模型的可控视频生成框架,用于产生高质量定制的人类视频。DreaMoving允许用户生成具有高度自定义特征的人类视频,如在沙滩上微笑的女孩,中央公园跳舞的亚洲女孩等。

DreaMoving2.png

代码:https://github.com/dreamoving/dreamoving-project

试玩地址:https://www.modelscope.cn/studios/vigen/video_generation/summary

DreaMoving是一种可以生成高质量和高保真度视频的技术,它能够根据给定的指导序列和简单的内容描述,例如文本和参考图像作为输入,生成视频。

具体来说,DreaMoving通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的综合视频外观控制来展示身份控制的熟练程度。这意味着,只需要“投喂”一张人像和一段提示,就能够生成对应的视频,而且改变提示,人物背景和身上的衣服也会跟着变化。

为了实现这一目标,DreaMoving技术引入了两个关键组件:Video ControlNet和Content Guider。其中,Video ControlNet是一个图像ControlNet,通过在每个U-Net块后注入运动块,处理控制序列(姿势或深度)以产生额外的时间残差,从而有效实现了对运动的控制。而Content Guider组件则负责将输入文本提示和外观表达(如人脸,衣物是可选的)转换为内容嵌入,实现跨注意力的传递。

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Next-Frame Diffusion:微软与北大联合开发的开源自回归视频生成框架
Next-Frame Diffusion(NFD)是由微软研究院与北京大学联合开发的开源自回归视频生成框架,作为当前最具突破性的实时交互式视频生成技术之一,其核心创新在于通过块状因果注意...
2025-06-14 新闻资讯
258

LLIA:美团开源的低延时音频驱动肖像视频生成框架
LLIA(Low Latency Interactive Avatar)是由美团技术团队开发并开源的音频驱动肖像视频生成框架,作为当前最具突破性的实时虚拟形象生成技术之一,其核心创新在于将扩散模型...
2025-06-14 新闻资讯
253

MultiTalk:音频驱动的多人口型同步与交互式视频生成框架
MultiTalk是由中山大学联合美团、香港科技大学研发的突破性视频生成框架,专门解决多人对话场景下的音频-视频同步难题。作为首个支持多音频流精准绑定的开源项目,它实现了从...
2025-06-11 新闻资讯
322

OmniSync:跨模态通用唇形同步视频生成框架
OmniSync是由中国人民大学、快手科技与清华大学联合研发的下一代唇形同步(Lip Sync)技术框架,其核心创新在于突破了传统方法对人工标注唇部掩码(mask)的依赖,实现了端到...
2025-06-02 新闻资讯
305

HunyuanVideo-Avatar:腾讯混元与天琴联合开源的语音驱动数字人视频生成框架
HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的开源语音驱动数字人视频生成框架,该项目基于多模态扩散Transformer(MM-DiT)架构,实现了从单张图像和音...
2025-05-30 新闻资讯
325

Steamer-I2V:百度开源的多模态条件控制图像到视频生成框架
Steamer-I2V是一个基于扩散模型的图像到视频生成框架,其技术核心在于通过多模态条件输入(包括图像、文本和引导信号)实现像素级精确的视频合成。与传统的端到端生成方法不同...
2025-05-20 新闻资讯
417