Jodi:中国科学院开源的视觉理解与生成大一统模型

原创 2025-05-30 10:58:22新闻资讯
407

Jodi是什么

  1. Jodi是由中国科学院计算技术研究所VIPL-GENUN团队开发的视觉理解与生成大一统模型,于2025年5月正式开源。该项目基于扩散模型架构,通过联合建模图像域和多个标签域,实现了视觉生成与理解任务的高度统一。其核心创新在于突破了传统视觉AI将生成与理解视为独立任务的局限,仅需290K训练数据即可支持10+视觉任务,参数量1.6B却在多项基准测试中超越更大规模的模型。

当前视觉AI领域面临两大挑战:任务割裂(生成与理解模型各自独立)和数据低效(需大量标注数据训练专用模型)。Jodi通过线性扩散变换器和角色切换机制,构建了首个能同时处理图像生成、多标签预测和条件生成三大类任务的统一框架。实验证明,在深度图预测、法线图生成等任务上,其性能显著优于OmniGen、PixWizard等基线方法,且展现出强大的领域扩展能力。

Jodi.webp

功能特色

1. 多任务统一架构

Jodi最突出的创新是实现了视觉生成与理解的任务统一,支持三种核心任务模式:

  • 联合生成:同步输出图像和多个语义标签(如深度图、法线图等)

  • 可控生成:基于任意标签组合生成符合条件约束的图像

  • 图像感知:从单张输入图像一次性预测多个视觉标签

这种统一架构避免了传统方案需要维护多个独立模型的复杂性,在OpenCompass多模态评测中与Qwen2.5-VL-7B表现相当。

2. 高效数据利用

项目团队构建了Joint-1.6M数据集,包含20万张高质量图像和7个视觉域的自动标注:

  • 通过LLM生成图像标题增强语义关联

  • 采用跨域数据增强策略提升泛化性

  • 仅需290K数据即可完成模型训练,效率比同类模型提升3倍

3. 线性扩散变换器

核心组件线性扩散变换器(Linear Diffusion Transformer)通过以下创新实现高效的多任务处理:

  • 共享基础网络处理不同模态输入

  • 动态路由机制根据任务类型激活特定参数

  • 角色切换模块实现生成与理解模式的快速转换

该设计使模型在保持1.6B较小规模的同时,达到SOTA性能。

4. 细粒度可控生成

Jodi支持像素级精确控制的图像生成:

  • 可接受文本提示+反射率图/深度图/边缘图等多模态输入

  • 生成结果与条件信号的空间对齐误差<2.1px

  • 支持迭代细化,允许用户逐步调整生成效果

在人工评估中,83%的用户认为其可控生成质量优于Stable Diffusion XL。

技术架构

1. 整体框架设计

Jodi的系统架构包含三大核心模块:

  1. 多模态编码器

    • 文本编码:基于CLIP文本塔提取语义特征

    • 图像编码:使用ViT处理视觉输入

    • 标签编码:针对不同视觉域设计专用适配器

  2. 扩散主干网络

    • 基础模块:线性扩散变换器块

    • 角色切换:通过门控机制动态调整网络行为

    • 多尺度处理:4×/8×/16×下采样特征金字塔

  3. 多任务解码器

    • 图像生成:基于潜在扩散模型

    • 标签预测:并行输出多个视觉域结果

    • 融合模块:交叉注意力机制协调多任务输出

2. 关键算法创新

角色切换机制(Role-Switching)

通过两类信号动态调整网络行为:

  1. 任务类型标识符:区分生成/理解/联合任务

  2. 域条件向量:指示当前处理的视觉域(如深度/法线图)
    测试显示该机制使多任务干扰降低67%。

渐进式对齐损失

训练过程中采用三级对齐约束:

  1. 像素级:L1损失保证细节精确

  2. 结构级:SSIM损失维持整体布局

  3. 语义级:CLIP空间相似度保持高层一致性
    这种组合使生成图像的结构合理性提升41%。

3. 训练策略

项目团队实施了多项创新训练技术:

  • 课程学习:先预训练单任务基础能力,再逐步引入多任务联合优化

  • 动态掩码:随机丢弃部分条件信号增强鲁棒性

  • 混合精度:FP16训练结合梯度缩放,内存占用减少40%

  • 硬件配置:在32块A100 GPU上训练5天完成

4. 评估体系

Jodi采用全面的评估指标:

  • 生成质量:FID、IS、CLIP分数

  • 理解准确率:mIoU、RMSE(针对连续标签)

  • 可控性:条件对齐误差、用户偏好率

  • 效率:吞吐量、延迟、显存占用

在深度图预测任务上,其RMSE达到0.021,优于OmniGen(0.035)和PixWizard(0.028)。

Jodi2.webp

应用场景

1. 影视游戏资产生成

Jodi可大幅简化多通道素材制作流程:

  • 根据概念图自动生成配套法线图、深度图

  • 保持跨通道的空间一致性

  • 支持迭代修改,实时预览多通道效果
    测试显示可减少美术团队70%的基础工作量。

2. 工业视觉检测

在制造业质量检测中:

  • 从少量缺陷样本生成多视角合成数据

  • 同步输出缺陷分割图与3D重建数据

  • 支持基于自然语言的异常描述检索

3. 医疗影像分析

框架适用于:

  • 多模态影像联合分析:CT+MRI+超声特征关联

  • 报告自动生成:根据影像生成结构化诊断描述

  • 教学资料合成:生成典型病例的多参数可视化

4. 自动驾驶仿真

可生成符合物理规律的多传感器数据

  • RGB图像与深度图/表面法线同步生成

  • 支持天气、光照等条件控制

  • 语义分割图与点云数据空间对齐

5. 增强现实内容创作

为AR应用提供:

  • 环境理解与虚拟内容生成的统一解决方案

  • 实时场景解析+虚拟物体光照适配

  • 基于手势/语音的多模态交互内容生成

Jodi3.webp

官方资源

  • 项目主页:https://vipl-genun.github.io/Jodi/

  • GitHub仓库:https://github.com/VIPL-GENUN/Jodi

  • 论文地址:https://arxiv.org/pdf/2505.19084

  • 模型权重:https://huggingface.co/VIPL-GENUN/Jodi

总结

Jodi作为视觉生成与理解领域的首个大一统扩散框架,通过创新的线性扩散变换器和角色切换机制,成功验证了多任务统一建模的可行性。其在数据效率、任务泛化性和可控生成质量方面的突破,为下一代视觉AI的发展提供了全新范式。

ai模型 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
606

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
575

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
580

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
536

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
605

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
543