谷歌发布视频生成模型(Lumiere):运动幅度和一致性表现良好

站长之家 2024-01-24 15:43:41新闻资讯
345

Lumiere是谷歌发布的第三个视频生成模型,这次的模型演示视频质量非常高,运动幅度和一致性表现也很好。除了视频生成,该模型还支持各种视频编辑和生成控制能力。

Lumiere 是一款先进的模型,专门用于将文本转换为视频,这在视频合成领域是一大挑战。为了实现这一目标,谷歌采用了一种创新的空间-时间 U-Net 架构。

Lumiere.png

项目地址:https://huggingface.co/papers/2401.12945

这种架构能够一次性完成整个视频时长的生成,与传统视频模型不同。传统模型通常是先合成关键的远程帧,然后通过时间上的超级分辨率技术来处理,这种方法难以保持视频的全局时间连贯性。

Lumiere 通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型,使得该模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。

该模型在将文本转换成视频方面取得了领先成果,并证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。

谷歌
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

AMP是什么意思?谷歌AMP使用方法详细指南
AMP 是谷歌开源的一种网页框架,旨在帮助网页实现秒开加载,尤其适用于新闻资讯、博客、电商产品页等内容型网页。本文站长工具网将为你详细介绍 AMP 是什么、它的核心原理、如...
2025-08-29 站长之家
669

谷歌站长平台提示“网址没有任何增强选项”是怎么回事?
谷歌站长平台(Google Search Console)是网站优化与搜索引擎交互的核心工具,当用户发现平台提示“网址没有任何增强选项”时,往往意味着网站未充分利用结构化数据、AMP等高...
2025-08-28 站长之家
685

核心 Web Vitals 是如何影响网站Google搜索排名的?
本文站长工具网将系统解析CWV的三大核心指标(LCP、INP、CLS)的技术原理、优化方法,及其如何通过用户行为数据、AI模型训练、搜索排名算法三个维度深度影响Google搜索结果。
2025-08-04 站长之家
570

Gen-CLI:基于DeepSeek的AI命令行编程工具,谷歌Gemini-CLI平替方案
Gen-CLI是一个开源的命令行编程工具,旨在为国内开发者提供类似于谷歌Gemini-CLI的AI辅助编程体验。该项目基于开源的Gemini-CLI进行改造,通过调用硅基流动(SiliconCloud)平台...
2025-07-09 新闻资讯
1188

BlenderFusion:谷歌DeepMind开发的2D图像转换为可编辑3D场景框架
BlenderFusion 是由谷歌DeepMind团队开发的一项革命性技术,它能够将普通的2D照片转换成完全可编辑的3D场景。它能够精确控制图片中每个物体的位置、角度、大小,改变颜色材质...
2025-07-03 新闻资讯
560

Gemini CLI:谷歌开源的命令行界面AI编程工具
Gemini CLI是谷歌开源的一款命令行界面AI编程工具,它将Google Gemini系列大模型的强大能力直接集成到开发者终端环境中。作为基于Gemini 2.5 Pro多模态模型的AI代理框架,Gem...
2025-06-27 新闻资讯
706