一、Orthus是什么
Orthus是由快手与上海交通大学联合研发的一款统一多模态生成理解模型,基于自回归Transformer架构,能够高效处理图文交错数据的生成与理解任务。Orthus的核心创新在于解决了现有多模态模型在信息保留和建模效率上的矛盾。传统方法如全自回归模型(如Chameleon)通过向量量化(VQ)将图像离散化导致信息损失;而自回归-扩散混合模型(如Transfusion)因噪声干扰难以同时优化视觉生成与理解任务。Orthus通过连续图像特征表示和模态特定头部设计,在完全自回归框架下实现了无损的图文交错建模,在多项基准测试中超越了Chameleon、Show-o等竞争模型,甚至在文生图质量上优于专业扩散模型SDXL。
二、功能特色
1. 无损跨模态生成能力
Orthus支持多种模态间的自由转换,包括:
文生图(Text-to-Image):根据文本描述生成高质量图像(512×512分辨率),在GenEval指标上超越SDXL
图生文(Image-to-Text):对输入图像进行描述、问答等理解任务,MME-P得分达1265.8
图文交错生成:可生成故事书、网页等混合排版内容,保持多图像间的风格一致性
图像编辑:支持基于指令或上下文示例的图像修改,展现零样本学习能力
2. 高效训练与部署
项目采用分阶段训练策略大幅降低计算成本:
基础模型构建:基于预训练的全自回归模型(如Chameleon-7B),仅需72小时(8块A100 GPU)微调即可获得Orthus-base
后训练增强:在图文混合数据上进行统一目标训练,进一步提升交错建模能力
轻量化特性:7B参数规模适合移动端部署,在短视频创作、直播电商等场景具有应用优势
3. 上下文学习与零样本泛化
Orthus展现出强大的上下文学习(In-Context Learning)能力。如图像编辑任务中,仅通过提供示例(非明确指令)即可完成操作,且这些示例未包含在训练数据中。这种能力使其成为少样本场景下的理想选择。
三、技术细节
1. 架构设计
Orthus由以下核心组件构成:
文本处理模块:标准分词器将文本转换为离散token
视觉编码器:VAE将图像编码为连续patch特征(非离散化)
模态嵌入模块:
文本嵌入:传统嵌入层
视觉嵌入:可学习的软量化模块(替代硬向量量化)
Transformer主干:共享的自回归网络,建模跨模态依赖
模态特定头部:
LM头:预测下一个文本token
扩散头:3层MLP,通过条件扩散预测图像patch
表:Orthus与竞品架构对比
模型类型 | 代表工作 | 图像表示 | 文本表示 | 主要缺陷 |
---|---|---|---|---|
全自回归 | Chameleon | 离散VQ token | 离散token | 信息损失 |
自回归-扩散混合 | Transfusion | 加噪连续特征 | 离散token | 噪声干扰理解 |
Orthus | - | 连续特征 | 离散token | 无上述限制 |
2. 关键技术突破
(1)连续视觉表征
通过温度调节的softmax变换将VQ-VAE的词表与嵌入层结合:
其中τ从0逐渐增大,实现从离散到连续的平滑过渡。相比传统VQ的argmax操作,这种方法:
保留原始图像信息
允许代码本通过梯度更新适应多模态任务
兼容现有自回归模型的预训练权重
(2)扩散头设计
扩散头采用条件扩散模型预测下一个图像patch:
其中:
:加噪的target patch
:Transformer隐藏状态
:3层MLP(含AdaLN)
噪声调度采用线性1000步,推理时使用DDIM采样器(100步)+无分类器引导(CFG scale=5)。
(3)统一训练目标
后训练阶段联合优化:
其中:
:文本自回归损失
:平衡系数
这种设计使理解和生成任务相互促进——实验表明统一训练比单独训练各项指标提升5-15%。
3. 高效训练策略
项目提出**"从硬到软"的适配技巧**:
初始化:复用Chameleon-7B的预训练权重
视觉模块改造:
将VQ替换为可微softmax嵌入
添加扩散头(仅0.3B新增参数)
两阶段训练:
阶段一:10K高质量图像(LAION-COCO aesthetic)上微调视觉模块
阶段二:混合数据集(LLaVA-665K+JourneyDB等)后训练
该策略**将训练成本降低90%**以上,相比从头预训练更具实用性。
四、应用场景
1. 内容创作自动化
广告创意生成:快手已将其应用于广告短视频AIGC工业化生产系统
故事书/漫画创作:如图3所示,给定初始图文对后能延续连贯叙事
教育材料生成:结合Fogsight等工具自动生成教学动画
2. 智能交互增强
虚拟主播:实时生成表情、动作匹配解说文本
智能客服:支持多轮图文混合对话
电商导购:根据商品图生成营销文案或场景图
3. 专业领域辅助
医疗报告生成:结合MultiCogEval框架提升医学图像描述准确性
工业设计:基于文本描述快速生成产品原型图
科学可视化:与SCP协议集成辅助科研数据呈现
表:Orthus在典型任务中的表现
任务类型 | 数据集 | 评估指标 | 得分 | 对比基线 |
---|---|---|---|---|
视觉问答 | VQAv2 | 准确率 | 78.3 | 超Chameleon 13% |
文生图 | GenEval | 评分 | 0.58 | 超SDXL 0.03 |
图像编辑 | Instruct-Pix2Pix | CLIP相似度 | 0.82 | 媲美专用模型 |
交错生成 | StoryStream | 人工评估 | 4.2/5.0 | 最佳一致性 |
五、相关资源
代码仓库: https://github.com/zhijie-group/Orthus
模型权重: https://huggingface.co/SJTU-Deng-Lab/Orthus-7B-instruct
技术论文: https://arxiv.org/pdf/2412.00127
六、总结
Orthus作为新一代统一多模态模型,通过创新的自回归框架与模态特定头部设计,成功实现了无损的图文交错生成与理解。其技术核心在于:1) 连续视觉表征避免信息损失;2) 扩散头与LM头解耦提升生成质量;3) 高效训练策略大幅降低应用门槛。实验证明,该模型在视觉问答、文生图、图像编辑等任务上超越Chameleon、Show-o等基线模型,部分指标甚至优于专用扩散模型SDXL。开源后,Orthus已迅速在广告创意、虚拟主播、教育内容生成等领域展现出应用潜力,其轻量化特性尤其适合实际业务部署。该项目不仅为学界提供了多模态研究的新基准,也为工业界的AIGC落地提供了可靠工具链。
本文由@ai资讯 原创发布。
该文章观点仅代表作者本人,不代表本站立场。本站不承担相关法律责任。
如若转载,请注明出处:https://www.zhanid.com/news/orthus.html