苹果新AI系统GAUDI能够由语句生成3D室内场景

Apple 新近展示的 AI 系统 GAUDI 可以由语句生成 3D 室内场景,这为新一代生成式 AI 提供了基础。

神经渲染将人工智能带入了计算机图形学,如谷歌依靠神经辐射场 (NeRF)来实现沉浸式视图。NeRF 主要被用作 3D 模型和 3D 场景的神经存储介质,然后从不同的相机角度进行渲染。这种通过房间或物体周围的摄像机通道的创建方式,也曾针对 VR 体验进行过实验。2021 年底,谷歌展示的 Dream Fields(一个将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 对图像内容进行评级的能力相结合的 AI 系统)实现了与文本描述匹配的 NeRF。

Dream Fields 虽能生成单个对象,但要将生成 AI 扩展到完全不受限制的 3D 场景仍然是一个未解决的问题。一个原因是摄像机位置的限制:虽然每个有意义的摄像机位置都可以映射到单个物体上,但在 3D 场景中,有意义的摄像机位置受到物体和墙壁等障碍物的限制。如果在生成过程中未观察到相应的场景,则不会创建可用的 3D 场景。

Apple 的 GAUDI 模型通过三个专门的网络解决了这个问题:摄像头位置解码器预测可能的摄像头位置,确保输出是对 3D 场景架构有效的位置。而场景的另一个解码器则预测三层表示,提供一种 3D 画布,辐射场解码器在其上使用体积渲染方程绘制后续图像。

通过针对包括内部扫描数据集 ARKitScences 在内的四个不同数据集的实验,研究人员表明,GAUDI 可以在达到现有方法的质量的同时重建学习视图。Apple 还展示了 GAUDI 可以通过 3D 室内场景生成新的跟踪镜头。生成可以是随机的,从源图像开始,也可以通过输入文本使用文本编码器进行控制——例如“穿过走廊”或“上楼梯”。

GAUDI 生成的视频质量虽然较低,并且充满了伪影,但借助 AI 系统,Apple 为可渲染 3D 对象和场景的可控生成 AI 系统奠定了基础。对于 Apple 来说,一种可能的应用是为其 XR 眼镜生成数字位置。【编译自 mixed.de】

有问题和想法?与数字诗人讨论、交流,以获得更多的信息、意见。

赞赏
lighting
lighting
笛卡尔的“思”正在进入明斯基的“情感机器”
本文系数字叙事原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

订阅

受欢迎的

相关文章
Related