Dive3D：北京大学与小红书联合开源的多样化文本到3D生成框架

原创 2025-06-24 10:59:27新闻资讯

513

Dive3D是什么

Dive3D是由北京大学与小红书（Xiaohongshu Inc.）联合研发的开源项目，旨在通过双引擎驱动框架（扩散蒸馏与奖励引导优化）实现高质量、多样化的文本到3D内容生成。该项目于2025年6月正式发布，其核心创新在于解决传统3D生成中的模式坍塌（mode collapse）问题，显著提升生成结果的多样性、文本对齐性和视觉保真度。

Dive3D的命名源自其方法论核心——“Diverse Distillation-based text-to-3D Generation”，即通过**分数隐式匹配（Score Implicit Matching, SIM）**替代传统KL散度优化，实现更高效的3D内容生成。项目支持多种3D表示形式（如NeRF、3D Gaussian Splatting），并兼容主流预训练2D扩散模型（如Stable Diffusion），为游戏开发、影视制作、工业设计等领域提供了高效的3D资产生成工具。

功能特色

Dive3D的核心优势体现在以下四个方面：

（1）多样性驱动的生成能力

传统基于Score Distillation Sampling（SDS）的方法因依赖KL散度优化，易导致生成结果单一化（模式坍塌）。Dive3D提出SIM损失函数，通过匹配生成内容与目标分布的梯度场（而非概率密度），使生成结果覆盖更广的高概率区域。例如，在生成“科幻火焰喷射器”时，Dive3D可输出多种设计变体（粒子效果、材质差异等），而基线方法（如DreamGaussian）仅能生成单一模式。

（2）多目标协同优化框架

首次将**扩散蒸馏（Diffusion Distillation）与奖励引导优化（Reward-Guided Optimization）**统一为发散最小化问题，实现文本对齐、视觉质量与人类偏好的协同提升。例如，在生成“艺术花纹花瓶”时，模型同时优化几何一致性（通过多视角渲染）、纹理细节（通过CLIP奖励）和美学评分（通过人类偏好模型）。

（3）兼容多类3D表示

支持NeRF（隐式表示）与3D Gaussian Splatting（显式表示）的灵活切换。实验表明，在生成“木质飞机”时，Gaussian Splatting可加速渲染10倍，而NeRF更适合高保真细节（如复杂曲面）。

（4）强基准性能

在GPT-Eval3D等评测中，Dive3D在多样性、文本对齐、几何合理性等维度全面领先9种基线方法（如ProLificDreamer、DreamGaussian）。例如，生成“手持光剑的绝地鸭子”时，Dive3D的语义准确率比SDS方法高32%，且几何错误率降低45%。

技术细节

Dive3D的技术架构分为三个核心模块：

（1）分数隐式匹配（SIM）

问题背景：传统SDS损失（公式5-6）可重写为KL散度的线性组合，导致优化过程偏向模式寻求（mode-seeking）。
解决方案：SIM直接匹配生成分布$q_\theta(x|c)$与扩散先验$p_\phi(x)$的分数（score）梯度场，损失函数为：
该设计避免了KL散度的不对称性，从而缓解模式坍塌。