Orthus:基于自回归Transformer的无损图文交错生成与理解模型

原创 2025-07-30 10:36:43新闻资讯
478

一、Orthus是什么

Orthus是由快手与上海交通大学联合研发的一款统一多模态生成理解模型,基于自回归Transformer架构,能够高效处理图文交错数据的生成与理解任务。Orthus的核心创新在于解决了现有多模态模型在信息保留和建模效率上的矛盾。传统方法如全自回归模型(如Chameleon)通过向量量化(VQ)将图像离散化导致信息损失;而自回归-扩散混合模型(如Transfusion)因噪声干扰难以同时优化视觉生成与理解任务。Orthus通过连续图像特征表示模态特定头部设计,在完全自回归框架下实现了无损的图文交错建模,在多项基准测试中超越了Chameleon、Show-o等竞争模型,甚至在文生图质量上优于专业扩散模型SDXL。

二、功能特色

1. 无损跨模态生成能力

Orthus支持多种模态间的自由转换,包括:

  • 文生图(Text-to-Image):根据文本描述生成高质量图像(512×512分辨率),在GenEval指标上超越SDXL

  • 图生文(Image-to-Text):对输入图像进行描述、问答等理解任务,MME-P得分达1265.8

  • 图文交错生成:可生成故事书、网页等混合排版内容,保持多图像间的风格一致性

  • 图像编辑:支持基于指令或上下文示例的图像修改,展现零样本学习能力

2. 高效训练与部署

项目采用分阶段训练策略大幅降低计算成本:

  1. 基础模型构建:基于预训练的全自回归模型(如Chameleon-7B),仅需72小时(8块A100 GPU)微调即可获得Orthus-base

  2. 后训练增强:在图文混合数据上进行统一目标训练,进一步提升交错建模能力

  3. 轻量化特性:7B参数规模适合移动端部署,在短视频创作、直播电商等场景具有应用优势

3. 上下文学习与零样本泛化

Orthus展现出强大的上下文学习(In-Context Learning)能力。如图像编辑任务中,仅通过提供示例(非明确指令)即可完成操作,且这些示例未包含在训练数据中。这种能力使其成为少样本场景下的理想选择。

orthus.webp

三、技术细节

1. 架构设计

Orthus由以下核心组件构成:

  • 文本处理模块:标准分词器将文本转换为离散token

  • 视觉编码器:VAE将图像编码为连续patch特征(非离散化)

  • 模态嵌入模块

    • 文本嵌入:传统嵌入层

    • 视觉嵌入:可学习的软量化模块(替代硬向量量化)

  • Transformer主干:共享的自回归网络,建模跨模态依赖

  • 模态特定头部

    • LM头:预测下一个文本token

    • 扩散头:3层MLP,通过条件扩散预测图像patch

表:Orthus与竞品架构对比

模型类型代表工作图像表示文本表示主要缺陷
全自回归 Chameleon 离散VQ token 离散token 信息损失
自回归-扩散混合 Transfusion 加噪连续特征 离散token 噪声干扰理解
Orthus -连续特征 离散token无上述限制

2. 关键技术突破

(1)连续视觉表征

通过温度调节的softmax变换将VQ-VAE的词表与嵌入层结合:

其中τ从0逐渐增大,实现从离散到连续的平滑过渡。相比传统VQ的argmax操作,这种方法:

  • 保留原始图像信息

  • 允许代码本通过梯度更新适应多模态任务

  • 兼容现有自回归模型的预训练权重

(2)扩散头设计

扩散头采用条件扩散模型预测下一个图像patch:

其中:

  • :加噪的target patch

  • :Transformer隐藏状态

  • :3层MLP(含AdaLN)

噪声调度采用线性1000步,推理时使用DDIM采样器(100步)+无分类器引导(CFG scale=5)。

(3)统一训练目标

后训练阶段联合优化:

其中:

  • :文本自回归损失

  • :平衡系数

这种设计使理解和生成任务相互促进——实验表明统一训练比单独训练各项指标提升5-15%。

3. 高效训练策略

项目提出**"从硬到软"的适配技巧**:

  1. 初始化:复用Chameleon-7B的预训练权重

  2. 视觉模块改造

    • 将VQ替换为可微softmax嵌入

    • 添加扩散头(仅0.3B新增参数)

  3. 两阶段训练

    • 阶段一:10K高质量图像(LAION-COCO aesthetic)上微调视觉模块

    • 阶段二:混合数据集(LLaVA-665K+JourneyDB等)后训练

该策略**将训练成本降低90%**以上,相比从头预训练更具实用性。

orthus2.webp

四、应用场景

1. 内容创作自动化

  • 广告创意生成:快手已将其应用于广告短视频AIGC工业化生产系统

  • 故事书/漫画创作:如图3所示,给定初始图文对后能延续连贯叙事

  • 教育材料生成:结合Fogsight等工具自动生成教学动画

2. 智能交互增强

  • 虚拟主播:实时生成表情、动作匹配解说文本

  • 智能客服:支持多轮图文混合对话

  • 电商导购:根据商品图生成营销文案或场景图

3. 专业领域辅助

  • 医疗报告生成:结合MultiCogEval框架提升医学图像描述准确性

  • 工业设计:基于文本描述快速生成产品原型图

  • 科学可视化:与SCP协议集成辅助科研数据呈现

表:Orthus在典型任务中的表现

任务类型数据集评估指标得分对比基线
视觉问答 VQAv2 准确率 78.3 超Chameleon 13%
文生图 GenEval 评分 0.58 超SDXL 0.03
图像编辑 Instruct-Pix2Pix CLIP相似度 0.82 媲美专用模型
交错生成 StoryStream 人工评估 4.2/5.0 最佳一致性

orthus3.webp

五、相关资源

  • 代码仓库: https://github.com/zhijie-group/Orthus

  • 模型权重: https://huggingface.co/SJTU-Deng-Lab/Orthus-7B-instruct

  • 技术论文: https://arxiv.org/pdf/2412.00127

六、总结

Orthus作为新一代统一多模态模型,通过创新的自回归框架与模态特定头部设计,成功实现了无损的图文交错生成与理解。其技术核心在于:1) 连续视觉表征避免信息损失;2) 扩散头与LM头解耦提升生成质量;3) 高效训练策略大幅降低应用门槛。实验证明,该模型在视觉问答、文生图、图像编辑等任务上超越Chameleon、Show-o等基线模型,部分指标甚至优于专用扩散模型SDXL。开源后,Orthus已迅速在广告创意、虚拟主播、教育内容生成等领域展现出应用潜力,其轻量化特性尤其适合实际业务部署。该项目不仅为学界提供了多模态研究的新基准,也为工业界的AIGC落地提供了可靠工具链。

ai模型 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
606

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
575

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
580

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
536

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
605

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
543