5秒完成3D生成，合成数据集已开源，上交港中文框架超越Instant3D

发布时间：2024-07-04 15:52:36来源：网络转载

上交港中文框架超越Instant3D
近年来，3D内容生成技术经历了迅速的发展。然而，与2D图片生成相比，生成高质量的3D物体仍面临许多挑战，其中最主要的问题在于3D数据，特别是高质量数据的不足。
为了解决这一问题，由上海交通大学和香港中文大学等机构的研究团队推出了一种新的框架——Bootstrap3D。这个框架结合了微调的具备3D感知能力的多模态大模型，能够自动生成任意数量的高质量的多视角图片数据，从而助力多视图扩散模型的训练。

Bootstrap3D框架的核心创新

数据构建Pipeline
数据构建Pipeline是Bootstrap3D框架的核心创新之一，旨在自动生成高质量的多视图图像数据，并附带详细的描述文本。这个过程主要包括以下几个步骤：
1.文本提示生成：使用强大的大语言模型（如GPT-4）生成大量富有创意和多样化的文本提示，这些文本提示涵盖了各种场景和物体，为后续的图像生成提供了丰富的素材。
2.图像生成：利用2D扩散模型和视频扩散模型，根据生成的文本提示创建单视图图像。通过结合2D和视频扩散模型的优势，生成的图像具有更高的初始质量和多样性。
3.多视图合成：使用视频扩散模型将单视图图像扩展为多视图图像，生成不同角度的视图。这一步骤确保了每个对象在不同视角下的一致性，解决了传统方法中视图不一致的问题。
4.质量筛选和描述重写：通过微调的3D感知模型MV-LLaVA，对生成的多视图图像进行严格的质量筛选。筛选过程不仅过滤掉低质量的数据，还重写描述文本，使其更加准确和详细。

Bootstrap3D框架的训练timestep重安排（TTR）

团队还提出了一种创新的训练timestep重新安排策略（TTR），以解决多视图扩散模型训练中的图像质量和视图一致性问题。TTR策略的核心理念是在训练过程中灵活调整合成数据和真实数据的训练时间步，从而优化去噪过程的不同阶段。这种阶段性特征为我们提供了调整训练策略的机会。具体来说，让合成数据主要参与早期的去噪阶段，确保它们对整体结构的贡献，而将后期的细节生成留给质量更高的真实数据。

开源数据集的共享

Bootstrap3D生成的数据集已经全面开源，任何研究人员和开发者都可以免费访问和使用。这一举措不仅促进了3D内容生成技术的普及和发展，也为更多学者和工程师提供了实践机会，推动了整个领域的进步。
综上所述，Bootstrap3D框架通过其独特的优势和创新技术，在3D内容生成领域取得了重要的突破，并且通过开源数据集的方式进一步推动了该技术的共享与进步。

本文链接：http://www.sanshiling.com/content-25-1956-1.html

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。