谷歌发布视频生成模型(Lumiere):运动幅度和一致性表现良好

站长之家 2024-01-24 15:43:41新闻资讯
229

Lumiere是谷歌发布的第三个视频生成模型,这次的模型演示视频质量非常高,运动幅度和一致性表现也很好。除了视频生成,该模型还支持各种视频编辑和生成控制能力。

Lumiere 是一款先进的模型,专门用于将文本转换为视频,这在视频合成领域是一大挑战。为了实现这一目标,谷歌采用了一种创新的空间-时间 U-Net 架构。

Lumiere.png

项目地址:https://huggingface.co/papers/2401.12945

这种架构能够一次性完成整个视频时长的生成,与传统视频模型不同。传统模型通常是先合成关键的远程帧,然后通过时间上的超级分辨率技术来处理,这种方法难以保持视频的全局时间连贯性。

Lumiere 通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型,使得该模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。

该模型在将文本转换成视频方面取得了领先成果,并证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。

谷歌
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Gen-CLI:基于DeepSeek的AI命令行编程工具,谷歌Gemini-CLI平替方案
Gen-CLI是一个开源的命令行编程工具,旨在为国内开发者提供类似于谷歌Gemini-CLI的AI辅助编程体验。该项目基于开源的Gemini-CLI进行改造,通过调用硅基流动(SiliconCloud)平台...
2025-07-09 新闻资讯
290

BlenderFusion:谷歌DeepMind开发的2D图像转换为可编辑3D场景框架
BlenderFusion 是由谷歌DeepMind团队开发的一项革命性技术,它能够将普通的2D照片转换成完全可编辑的3D场景。它能够精确控制图片中每个物体的位置、角度、大小,改变颜色材质...
2025-07-03 新闻资讯
275

Gemini CLI:谷歌开源的命令行界面AI编程工具
Gemini CLI是谷歌开源的一款命令行界面AI编程工具,它将Google Gemini系列大模型的强大能力直接集成到开发者终端环境中。作为基于Gemini 2.5 Pro多模态模型的AI代理框架,Gem...
2025-06-27 新闻资讯
351

OmniAvatar:阿里巴巴开源的一款音频驱动全身视频生成模型
OmniAvatar是由阿里巴巴夸克团队开源的一款音频驱动全身视频生成模型,旨在解决现有虚拟人技术中动作生硬、口型同步精度不足、缺乏全身自然交互等问题。该项目通过结合多层次...
2025-06-26 新闻资讯
348

ContentV:字节跳动开源的一款高效文本到视频生成模型
ContentV是字节跳动研发的一款高效文本到视频生成模型,其核心创新在于通过极简架构改造和流匹配训练策略,实现了在有限计算资源下训练80亿参数大模型的目标。该项目针对当前...
2025-06-11 新闻资讯
350

LMEval:谷歌开源的标准化AI大模型评测框架
LMEval 是由谷歌公司于2025年5月27日正式发布的开源框架,旨在为大型语言模型(LLM)和多模态模型提供标准化的评测工具,解决AI模型评估领域长期存在的比较壁垒问题。该项目基于...
2025-05-28 新闻资讯
419