超越Sora!AI视频模型StreamingT2V可生成120秒超长视频

站长之家 2024-03-26 15:20:20新闻资讯
180

近日,UT奥斯丁等机构提出的StreamingT2V技术引发了广泛关注,将AI视频生成推向了新的高度。这项技术突破了以往视频长度的限制,实现了生成高度一致且长度可扩展的视频。

StreamingT2V.png

StreamingT2V技术的核心构架包括条件注意力模块(CAM)和外观保持模块(APM)。CAM利用短期记忆单元确保视频连续性,而APM作为长期记忆单元保持视频中对象或场景的一致性。这两个模块的结合,使得生成的视频不仅动态连贯,而且视觉效果高质量。在测试中,研究人员用Streaming T2V生成1200帧,长达2分钟的视频。

具体实现方法分为三个阶段:初始化、Streaming T2V生成和Streaming Refinement。在初始化阶段,利用文本到视频模型创造视频的前16帧;接着进入Streaming T2V阶段,通过自回归技术生成后续帧,保证视频内容连贯性;最后,在Streaming Refinement阶段对生成的视频进行优化,提高画质和动态效果。

特色亮点包括:

  • 从文本描述生成2分钟的视频

  • 创建具有复杂动态运动的视频

  • 确保长视频中的时间一致性

该技术的出现标志着AI视频生成的新突破,不仅可以生成1200帧甚至无限长的视频,而且内容过渡自然平滑,丰富多样。与此同时,StreamingT2V技术的不断完善和提升也将进一步推动AI视频生成领域的发展,为视频内容创作提供更多可能性。

项目入口:https://github.com/Picsart-AI-Research/StreamingT2V

论文地址:https://arxiv.org/abs/2403.14773

ai Sora
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

OpenAI计划将Sora视频生成工具集成到ChatGPT中
OpenAI领导团队周五在Discord办公时间会议上宣布,公司计划最终将其AI视频生成工具Sora直接集成到流行的ChatGPT应用程序中,进一步扩展其AI创作生态系统。OpenAI的Sora产品负...
2025-03-03 新闻资讯
177

Loopy:字节跳动开发的一款音频驱动的AI视频生成模型
Loopy是由字节跳动和浙江大学联合开发的一款基于音频驱动的AI视频生成模型。它能够将静态照片或图像转化为动态视频,使照片中的人物能够根据输入的音频文件进行面部表情和头部...
2025-01-31 新闻资讯
356

MIMO:阿里巴巴智能研究院开源的多功能可控视频合成模型
MIMO 是阿里巴巴集团智能计算研究院开源的一种用于可控视频合成的通用模型,其核心思想是将2D视频编码为紧凑的空间代码,并考虑视频发生的固有3D特性。通过这种编码方式,MIM...
2024-11-10 新闻资讯
369

“即梦AI”上架苹果应用商店:支持AI视频创作 效果直逼Sora
字节跳动旗下剪映团队研发的一站式AI创作平台“即梦AI”移动版,于今日正式上架苹果App Store应用商店。即梦AI集成了尖端的AI图片与视频创作技术,将用户的每一个创意想法转化...
2024-08-06 新闻资讯
816

对标Sora!快手自研视频生成大模型可灵AI全面开放内测
7月25日消息,日前,快手视频生成大模型可灵AI宣布基础模型升级,并全面开放内测,同时正式上线付费会员体系。用户每日登录都可免费获得66灵感值,可用于兑换可灵AI平台内指定...
2024-07-25 新闻资讯
311

Sora平替?2分钟超长AI视频模型StreamingT2V免费开源 试玩地址公布
近日,Picsart AI Research等团队联合发布了一款名为StreamingT2V的AI视频模型,该模型能够生成长达1200帧、时长达2分钟的视频,这在技术上超越了之前备受关注的Sora模型。St...
2024-04-15 新闻资讯
195