谷歌推大语言模型(VideoPoet):文本图片皆可生成视频和音频

站长之家 2023-12-20 10:50:27新闻资讯
388

Google Research最近发布了一款名为VideoPoet的大型语言模型(LLM),旨在解决当前视频生成领域的挑战。该领域近年来涌现出许多视频生成模型,但在生成连贯的大运动时仍存在瓶颈。现有领先模型要么生成较小的运动,要么在生成较大运动时出现明显的伪影。

VideoPoet的创新之处在于将语言模型应用于视频生成,支持多种任务,包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。与当前主流的扩散模型不同,VideoPoet将这些视频生成功能融合在一个大型语言模型中,而不是依赖于分别针对每个任务进行训练的组件。

VideoPoet.png

该模型通过多个分词器(MAGVIT V2用于视频和图像,SoundStream用于音频)进行训练,以学习跨视频、图像、音频和文本模态的知识。通过将模型生成的令牌转换为可视化表示,VideoPoet能够输出动画、风格化视频,甚至生成音频。模型支持文本输入,以指导文本到视频、图像到视频等任务的生成。

为了展示VideoPoet的多功能性,研究人员提供了一些生成示例。

VideoPoet2.png

文字生成视频

模型能够根据文本提示生成可变长度的视频,也可以将输入图像转化为动画视频。此外,模型还具备视频风格化的能力,通过输入光流和深度信息,以及一些额外的文本提示,生成独特风格的视频。最令人印象深刻的是,VideoPoet还可以生成音频,实现了从单一模型生成视频和音频的目标。

VideoPoet3.png

图像生成视频

VideoPoet4.png

视频风格化

VideoPoet5.png

可生成音频

研究人员指出,VideoPoet的训练方式使其具有生成较长视频的潜力,通过在上一个视频的最后1秒的基础上预测下一个1秒,可以实现视频的不断延伸。此外,模型还支持对已生成视频进行交互式编辑,用户可以改变物体的运动,实现不同的动作,从而具有高度的编辑控制。

评价结果

研究人员使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评估,我们在各种不同的提示下运行了所有模型,没有挑选示例,并要求人们对他们的偏好进行评分。下图以绿色突出显示了 VideoPoet 被选为以下问题的首选选项的时间百分比。

VideoPoet6.png

文本保真度

基于上述情况,平均而言,人们选择 VideoPoet 中24-35% 的示例作为比竞争模型更好的跟随提示,而竞争模型的这一比例为8-11%。评分者还更喜欢 VideoPoet 中41-54% 的示例,因为它们的动作更有趣,而其他模型的这一比例为11-21%。

VideoPoet作为大型语言模型,通过集成多种视频生成任务,为零镜头视频生成提供了新的可能性,为艺术创作、影视制作等领域带来了潜在的创新机遇。

官方博客:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

项目网址体验:https://sites.research.google/videopoet/

谷歌
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

AMP是什么意思?谷歌AMP使用方法详细指南
AMP 是谷歌开源的一种网页框架,旨在帮助网页实现秒开加载,尤其适用于新闻资讯、博客、电商产品页等内容型网页。本文站长工具网将为你详细介绍 AMP 是什么、它的核心原理、如...
2025-08-29 站长之家
593

谷歌站长平台提示“网址没有任何增强选项”是怎么回事?
谷歌站长平台(Google Search Console)是网站优化与搜索引擎交互的核心工具,当用户发现平台提示“网址没有任何增强选项”时,往往意味着网站未充分利用结构化数据、AMP等高...
2025-08-28 站长之家
638

Seed-OSS:原生512K长上下文与可控推理的开源大语言模型
一、Seed-OSS是什么?Seed-OSS是字节跳动Seed团队开源的大语言模型系列,标志着字节跳动首次进军开源大模型赛道。这一系列模型以其360亿参数的规模、原生512K超长上下文支持...
2025-08-22 新闻资讯
760

Klear-Reasoner:快手推出的一款专注于复杂推理任务的开源大语言模型
Klear-Reasoner 是由快手Klear团队开发的一款专注于复杂推理任务的开源大语言模型,基于Qwen3-8B-Base架构构建,在数学推导和代码生成等需要长链逻辑推理的领域展现出卓越性能...
2025-08-20 新闻资讯
808

GPT-OSS:OpenAI开源的高效稀疏激活大语言模型
GPT-OSS(Open-Source Series)是OpenAI发布的两款开源大型语言模型系列,包括GPT-OSS-120B和GPT-OSS-20B两个版本。这是OpenAI自2019年发布GPT-2以来,时隔6年首次回归开源阵...
2025-08-07 新闻资讯
715

XBai-o4:问小白推出的第四代开源大语言模型,以反思型生成范式重塑复杂推理能力
XBai-o4 是由国内AI厂商"问小白"推出的第四代开源大语言模型,其核心创新在于引入了独创的"反思型生成范式"(Reflective Generative Form)架构,通过深度融合Long-CoT强化学习...
2025-08-05 新闻资讯
881