Direct3D-S2：基于稀疏体积的可扩展3D生成框架

原创 2025-05-28 10:40:42新闻资讯

459

Direct3D-S2是什么

Direct3D-S2是由南京大学等研究机构联合开发的一种基于稀疏体积的可扩展3D生成框架，它能够在大幅降低训练成本的情况下实现卓越的3D输出质量。该项目旨在解决当前3D生成领域面临的核心挑战：利用带符号距离函数(SDF)等体积表示生成高分辨率3D资产时带来的巨大计算和内存压力。

传统的高分辨率3D生成方法通常需要至少32个GPU来进行256³分辨率的体积训练，而Direct3D-S2仅用8个GPU就可以按照1024×1024×1024分辨率进行训练，使得高分辨率3D生成变得既实用又高效。这一突破性进展主要归功于项目团队提出的空间稀疏注意(SSA)机制，该机制在前向通道中产生3.9倍的加速，在后向通道中获得9.6倍的加速。

功能特色

1. 高效的稀疏体积处理

Direct3D-S2的核心创新是空间稀疏注意(SSA)机制，它大大提高了稀疏体积数据上扩散变换(DiT)计算的效率。SSA允许模型在稀疏体积内有效地处理大型令牌集，显著提升了训练和推理效率。与传统的密集体积处理方法相比，SSA能够智能地识别和处理3D空间中的有效区域，避免了不必要的计算资源浪费。

2. 统一的稀疏体积VAE架构

项目框架包括一个变分自动编码器(VAE)，在输入、潜在和输出阶段保持一致的稀疏体积格式。与依赖于异构表示的现有3D VAE相比，这种统一设计显著提高了训练效率和稳定性。这种端到端的稀疏SDF VAE(SS-VAE)采用对称编码器-解码器网络，能够将高分辨率稀疏SDF卷高效编码为稀疏潜在表示。

3. 卓越的生成质量与效率平衡

Direct3D-S2不仅在生成质量方面超越了最先进的方法，而且在效率方面实现了突破性进展。测试表明，该方法生成的3D资产具有"毛孔级精度"，纹理更丰富，更接近输入的真实情况。即使在128K Tokens的大规模数据处理中，SSA模块仍能保持9.6倍的加速效果。

4. 低硬件需求与高扩展性

传统方法需要至少32个GPU来进行256³体积训练，而Direct3D-S2仅需8个GPU即可支持1024³分辨率的训练。这种硬件需求的显著降低(75%)使得高分辨率3D生成技术更加平民化，为更广泛的研究和应用提供了可能。

技术细节

1. 框架整体架构

Direct3D-S2框架的整体流程可以分为两个主要阶段：

稀疏SDF VAE(SS-VAE)：这是一个完全端到端的架构，采用对称编码器-解码器网络将高分辨率稀疏SDF卷高效编码为稀疏潜在表示。编码器部分逐步下采样输入稀疏体积，提取多尺度特征；解码器部分则根据潜在表示重建高质量的3D输出。
图像条件扩散变换器(SS-DiT)：基于SS-VAE提取的潜在表示，训练一个图像条件扩散变换器，并引入全新的空间稀疏注意力(SSA)机制。SSA机制显著提升了DiT在训练和推理阶段的效率。