Dive3D:北京大学与小红书联合开源的多样化文本到3D生成框架

原创 2025-06-24 10:59:27新闻资讯
513

Dive3D是什么

Dive3D是由北京大学与小红书(Xiaohongshu Inc.)联合研发的开源项目,旨在通过双引擎驱动框架(扩散蒸馏与奖励引导优化)实现高质量、多样化的文本到3D内容生成。该项目于2025年6月正式发布,其核心创新在于解决传统3D生成中的模式坍塌(mode collapse)问题,显著提升生成结果的多样性、文本对齐性和视觉保真度。

Dive3D的命名源自其方法论核心——“Diverse Distillation-based text-to-3D Generation”,即通过**分数隐式匹配(Score Implicit Matching, SIM)**替代传统KL散度优化,实现更高效的3D内容生成。项目支持多种3D表示形式(如NeRF、3D Gaussian Splatting),并兼容主流预训练2D扩散模型(如Stable Diffusion),为游戏开发、影视制作、工业设计等领域提供了高效的3D资产生成工具。

功能特色

Dive3D的核心优势体现在以下四个方面:

(1)多样性驱动的生成能力

传统基于Score Distillation Sampling(SDS)的方法因依赖KL散度优化,易导致生成结果单一化(模式坍塌)。Dive3D提出SIM损失函数,通过匹配生成内容与目标分布的梯度场(而非概率密度),使生成结果覆盖更广的高概率区域。例如,在生成“科幻火焰喷射器”时,Dive3D可输出多种设计变体(粒子效果、材质差异等),而基线方法(如DreamGaussian)仅能生成单一模式。

(2)多目标协同优化框架

首次将**扩散蒸馏(Diffusion Distillation)奖励引导优化(Reward-Guided Optimization)**统一为发散最小化问题,实现文本对齐、视觉质量与人类偏好的协同提升。例如,在生成“艺术花纹花瓶”时,模型同时优化几何一致性(通过多视角渲染)、纹理细节(通过CLIP奖励)和美学评分(通过人类偏好模型)。

(3)兼容多类3D表示

支持NeRF(隐式表示)与3D Gaussian Splatting(显式表示)的灵活切换。实验表明,在生成“木质飞机”时,Gaussian Splatting可加速渲染10倍,而NeRF更适合高保真细节(如复杂曲面)。

(4)强基准性能

在GPT-Eval3D等评测中,Dive3D在多样性、文本对齐、几何合理性等维度全面领先9种基线方法(如ProLificDreamer、DreamGaussian)。例如,生成“手持光剑的绝地鸭子”时,Dive3D的语义准确率比SDS方法高32%,且几何错误率降低45%。

Dive3D.webp

技术细节

Dive3D的技术架构分为三个核心模块:

(1)分数隐式匹配(SIM)

  • 问题背景:传统SDS损失(公式5-6)可重写为KL散度的线性组合,导致优化过程偏向模式寻求(mode-seeking)。

  • 解决方案:SIM直接匹配生成分布$q_\theta(x|c)$与扩散先验$p_\phi(x)$的分数(score)梯度场,损失函数为:
    该设计避免了KL散度的不对称性,从而缓解模式坍塌。

(2)统一发散优化框架

将扩散蒸馏与奖励优化整合为以下目标函数:
其中:

  • :基于CLIP或人类反馈的语义对齐奖励;

  • :通过可微分渲染(如NeRF)强化的几何一致性损失。

(3)多视角渲染与3D重建

  • 2D先验利用:使用Stable Diffusion生成多视角图像,并通过3D Gaussian Splatting或NeRF重建3D模型。

  • 动态优化策略:对高纹理区域(如动物毛发)采用特征感知采样,对平滑区域(如木质表面)采用均匀采样,以平衡效率与质量。

应用场景

Dive3D的生成能力适用于以下领域:

(1)游戏与虚拟现实

  • 案例:生成“赛博朋克魔法枪”等游戏资产,支持直接导出为Unity或Unreal Engine兼容格式。

  • 优势:相比腾讯Hunyuan3D 2.1(需单图输入),Dive3D仅需文本提示即可生成高多样性资产。

(2)影视特效

  • 案例:为电影《阿凡达3》快速生成“异星植物”3D模型,减少传统建模中UV展开、贴图绘制等耗时步骤。

  • 对比:优于One-2-3-45++的多视图生成方案,几何一致性提升28%。

(3)工业设计

  • 案例:生成符合工程要求的“仿生机械结构”,并通过3D-Aware RoPE增强跨视角一致性(类似Hunyuan3D的PBR材质合成)。

(4)教育与科研

  • 案例:生成“分子结构”或“古生物复原模型”,辅助生物学与化学教学。

相关链接

  • 论文地址:http://arxiv.org/abs/2506.13594

  • 代码仓库:https://github.com/ai4imaging/dive3d

  • 项目主页:https://ai4scientificimaging.org/dive3d/

总结

Dive3D通过分数隐式匹配统一发散框架,在3D生成领域实现了多样性、保真度与效率的突破。其开源特性(含训练代码与模型权重)降低了3D AIGC的应用门槛,为游戏、影视、教育等行业提供了高效工具。项目在GPT-Eval3D基准中的领先表现,验证了其方法的鲁棒性与泛化能力。

ai框架 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
598

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
567

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
577

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
530

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
597

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
539