LinGen:基于Mamba机制的线性复杂度高清长视频生成框架

原创 2025-06-23 10:39:10新闻资讯
295

LinGen是什么

LinGen是由普林斯顿大学与Meta联合推出的开源视频生成框架,旨在解决当前视频生成模型计算成本高、效率低下的核心问题。该项目通过创新的MATE(Mamba-Attention混合)架构,将传统视频生成的平方复杂度降至线性复杂度,实现了在单张GPU上分钟级高清长视频生成的突破性进展。与主流Diffusion Transformer(DiT)架构相比,LinGen-4B模型在保持相同参数量的情况下,能够实现最高15倍的FLOPs节省和11.5倍的延迟降低,同时生成质量对标Runway Gen-3、Kling等商业模型,显著优于OpenSora v1.2等开源方案。

项目名称"LinGen"源自"Linear Generation",凸显其线性计算复杂度的核心技术特征。传统基于自注意力的视频生成模型在处理高分辨率长视频时面临计算量随像素数平方增长的问题,而LinGen通过Mamba2状态空间模型(SSM)与3D窗口注意力(TESA)的混合设计,在保证视频时空一致性的同时,大幅提升了计算效率。这一突破使得512p分辨率、长达68秒的视频生成可在消费级硬件(如NVIDIA H100)上完成,为视频生成技术的普及应用扫清了硬件障碍。

功能特色

1. 线性复杂度的高效生成

LinGen最显著的特点是将视频生成的计算复杂度从O(N²)降至O(N)(N为像素数),这一突破主要通过三个关键技术实现:

  • MATE模块替代传统自注意力:将DiT中的计算瓶颈——自注意力模块替换为线性复杂度的MATE(Mamba-Attention混合)模块,包含处理长序列的MA分支(双向Mamba2)和处理局部信息的TE分支(TESA)

  • 硬件友好的Rotary Major Scan(RMS):通过四种scan方式(空间行优先、空间列优先、时间行优先、时间列优先)的层间交替,在避免复杂序列变换的同时,将相邻token的平均距离降至与Zigzag scan相当的水平

  • 固定窗口的TESA机制:采用窗口大小不随视频分辨率变化的3D窗口注意力,仅处理最临近信息,实现相对于token数的线性复杂度

实测数据显示,生成17秒、34秒和68秒的512p视频时,LinGen-4B相比DiT-4B分别实现5×、8×和15×的FLOPs节省;在单H100上生成512p和768p的17秒视频时,延迟分别降低2.0×和3.6×。

2. 卓越的生成质量

尽管采用线性复杂度设计,LinGen在视频质量上不仅未妥协,反而在多方面超越传统DiT:

  • 人类评测胜率75.6%:在双盲测试中,人类评估者明显偏好LinGen生成的视频

  • VBench自动评测全面领先:在文本-视频对齐(Semantic Score 73.73%)、主体一致性(Subject Consistency 98.30%)、背景一致性(BG Consistency 97.60%)等关键指标上,与商业模型Kling、Gen-3相当,远优于OpenSora v1.2

  • 超长帧序列支持:最高支持1088原始帧的生成,是Runway Gen-3(256帧)的4.25倍,Kling(313帧)的3.48倍

3. 创新的长程一致性保障

针对高分辨率长视频中常见的时空不一致问题,LinGen引入两项关键技术:

  • Review Tokens机制:将待处理video tensor的概览提前写入Mamba的hidden state memory,增强极长程(如60秒视频中复现前几秒消失的人物)的一致性

  • 滑动窗口TESA:窗口范围在不同层间滑动,通过跨层信息交流补偿单层scan方式的信息损失

这些设计使得LinGen在生成长达1分钟的视频时,仍能保持物体外观、场景布局的高一致性,解决了传统方法中常见的"物体突变"、"场景跳变"等问题。

LinGen.webp

技术细节

1. 核心架构设计

LinGen整体架构保持DiT的U-Net结构,主要创新在于MATE(Mamba-Attention混合)模块的设计:

  • MA分支(Mamba-Attention分支)

    • 采用双向Mamba2模块处理长序列,利用SSM(状态空间模型)对硬件友好的特性

    • 引入Rotary Major Scan(RMS)机制,通过四种优先级组合(W/H/T维度的不同排列)实现层间scan方式交替

    • 新增Review Tokens,将视频关键信息预写入hidden state,增强长程依赖建模

  • TE分支(Temporal-Swin分支)

    • 采用TEmporal Swin Attention(TESA),窗口大小固定为局部范围(如3×3×3)

    • 窗口划分方式在相邻层间滑动(正常与偏移窗口交替),捕捉不同位置的局部信息

    • 通过3D窗口注意力处理时空临近关系,弥补Mamba在局部信息建模上的不足

2. 关键算法创新

Rotary Major Scan(RMS)

传统scan方法(如Zigzag、Hilbert)需复杂序列变换,硬件不友好。RMS通过简单的tensor reshaping实现四种基础scan模式:

  1. 空间行优先:W维度最高优先级

  2. 空间列优先:H维度最高优先级

  3. 时间行优先:T维度最高优先级

  4. 时间列优先:T维度最高优先级,但采用列式遍历

这些模式在相邻层间交替应用,通过改变token展开顺序实现信息混合,无需额外计算开销,同时将相邻token平均距离降至与传统方法相当的水平。

TEmporal Swin Attention(TESA)

针对Mamba单层单一scan方式导致的信息损失问题,TESA设计特点包括:

  • 固定小窗口:不随视频分辨率变化,保持计算线性增长

  • 分层滑动窗口:相邻层采用不同窗口偏移,确保全覆盖

  • 纯局部处理:仅建模最临近token关系,避免全局注意力开销

3. 训练策略优化

LinGen采用渐进式训练策略

  1. 从低分辨率图像生成开始预训练

  2. 逐步增加视频分辨率和长度(token数增长上千倍)

  3. 在任务迁移(如256×256→512×512)时,LinGen的loss下降速度显著快于DiT,显示Mamba对长序列的天然适应性

实验表明,在训练资源有限的情况下,LinGen在预训练早期阶段对DiT的优势最为明显(win rate差扩大),随着训练进行优势虽减小但仍持续存在。

应用场景

LinGen的高效高质量视频生成能力,使其在多个领域具有广泛应用前景:

1. 影视内容创作

  • 预告片制作:可快速生成电影/电视剧的高质量预告片段,分辨率达512p以上,时长支持1分钟以上

  • 动画原型设计:为动画制作提供快速原型生成,加速前期创意验证

2. 企业宣传与广告

  • 产品宣传视频:根据文本描述自动生成具有专业水准的产品展示视频,大幅降低制作成本

  • 品牌广告制作:支持长格式广告视频生成,保持品牌元素的一致性

3. 在线教育

  • 教学视频生成:为在线课程自动生成配套讲解视频,时长可达分钟级,适应不同教学内容需求

  • 教育动画制作:简化复杂概念的动画演示制作流程

4. 社交媒体内容

  • 短视频创作:支持网红、自媒体高效产出高质量短视频内容,分辨率可达768p

  • 个性化视频生成:基于用户输入文本生成定制化视频内容

相关链接

  • 项目主页:https://lineargen.github.io/

  • 论文链接:https://arxiv.org/abs/2412.09856

  • GitHub仓库:https://github.com/jha-lab/LinGen

系统要求

  • 硬件:支持CUDA的NVIDIA GPU(建议H100/A100等高性能卡)

  • 软件:PyTorch 2.0+,xformers等优化库

总结

LinGen作为视频生成领域的突破性框架,通过创新的MATE架构将计算复杂度降至线性,在单GPU上实现了分钟级高清长视频生成,其核心价值体现在三个方面:计算效率上,最高实现15倍FLOPs节省和11.5倍延迟降低;生成质量上,人类评测胜率75.6%对标商业模型;技术创新上,RMS、TESA和Review Tokens等设计解决了长视频一致性问题。该项目不仅为学术界提供了高效视频生成的新范式,也为工业界应用降低了硬件门槛,使高质量视频生成技术更加普惠可及。

ai框架 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

ART(Agent Reinforcement Trainer):OpenPipe开源的强化学习(RL)框架
ART(Agent Reinforcement Trainer)是由OpenPipe团队开发的一个全新开源强化学习(RL)框架,专门设计用于训练各类智能体(Agent)在各种任务中实现更优表现。作为一个基于P...
2025-07-16 新闻资讯
232

RoboOS:开源跨本体具身大小脑协作框架
RoboOS 是北京智源人工智能研究院研发的跨本体具身大小脑协作框架,旨在解决当前具身智能落地过程中的通用性适配与多机调度难题。该系统基于"大脑-小脑"分层架构设计,通过云...
2025-07-16 新闻资讯
230

Genkit:Google Firebase团队开发的统一全栈AI应用开发框架
Genkit 是由Google Firebase团队开发并投入生产的开源统一全栈AI应用开发框架,旨在为开发者提供一套完整的工具链和标准化接口,用于构建、测试和部署全栈AI驱动的应用程序。
2025-07-11 新闻资讯
259

Agent Zero:开源动态学习与多智能体协作的AI框架
Agent Zero是一个革命性的开源AI代理框架,不同于传统的预编程AI工具,Agent Zero被设计为一个"个人化、有机(organic)的智能体框架",其核心理念是与用户共同成长和学习。这个...
2025-07-08 新闻资讯
296

MirrorMe:阿里通义推出的实时、高保真、可控的音频驱动肖像动画框架
MirrorMe 是由阿里通义实验室开发的一款实时、高保真、可控的音频驱动肖像动画框架,该项目旨在解决当前音频驱动肖像动画领域存在的高延迟、时间一致性差、身份保持困难和控制...
2025-07-03 新闻资讯
306

BlenderFusion:谷歌DeepMind开发的2D图像转换为可编辑3D场景框架
BlenderFusion 是由谷歌DeepMind团队开发的一项革命性技术,它能够将普通的2D照片转换成完全可编辑的3D场景。它能够精确控制图片中每个物体的位置、角度、大小,改变颜色材质...
2025-07-03 新闻资讯
287