谷歌将其大型 AI 图像模型Imagen与NeRF(神经辐射场)的 3D 功能相结合在一起,形成了 Dreamfusion。正如它的名称所表明的那样,这是一次梦幻般的融合。哲学家怀特海说,一切创新性创造即是融合。Dreamfusion 的创新性是直接从文本生成 3D 模型。
具体地说,Dreamfusion 是Dream Fields的进化,Dream Fields 是谷歌于 2021 年底推出的一种生成性 3D 人工智能系统。通过 Dream Fields,谷歌将 OpenAI 的图像分析模型 CLIP 与 NeRF 方法相结合,从而允许神经网络存储 3D 模型。Dream Fields 利用 NeRF 生成 3D 视图的能力,并将其与 CLIP 评估图像内容的能力相结合。而 Dreamfusion 则是对这种方法继续开发的结果。
另外,Dreamfusion 基于谷歌预先训练的 2D 文本图像扩散模型 Images,支持文本的 3D 合成。在 Dreamfusion 中,谷歌用新开发的基于图像的评估模型取代了 OpenAI 的 CLIP,后者也可用于 3D 创建。谷歌称,它可以“为预先训练的扩散模型提供许多新的应用程序”。
这样,3D 生成不需要使用无法达到所需程度的 3D 数据进行训练。Dreamfusion 从不同角度的 2D 图像中学习 3D 表示。为此,研究团队使用了包含“前”或“后”的视觉相关提示,过程是自动的。
与 Dream Fields 相比,Dreamfusion 通过文本提示生成高质量、深度和普通的背光 3D 对象。使用 Dreamfusion 生成的多个 3D 模型也可以缝合到一个场景中。“我们的方法不需要 3D 训练数据,也不需要改变图像扩散模型,这证明了预先训练的图像扩散模型的有效性。”谷歌的研究团队写道。
生成的 NeRF 模型可以使用 Marching Cubes 算法导出到网格,然后集成到通用 3D 渲染器或建模软件中。
“我们期待着将我们的方法与开源模型联系起来,为 3D 生成创造新的未来。”谷歌大脑研究员本·普尔(Ben Poole)在 Twitter 上写道。【数字叙事 Lighting】