苹果新AI系统GAUDI能够由语句生成3D室内场景

Apple 新近展示的 AI 系统 GAUDI 可以由语句生成 3D 室内场景，这为新一代生成式 AI 提供了基础。

神经渲染将人工智能带入了计算机图形学，如谷歌依靠神经辐射场 (NeRF)来实现沉浸式视图。NeRF 主要被用作 3D 模型和 3D 场景的神经存储介质，然后从不同的相机角度进行渲染。这种通过房间或物体周围的摄像机通道的创建方式，也曾针对 VR 体验进行过实验。2021 年底，谷歌展示的 Dream Fields（一个将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 对图像内容进行评级的能力相结合的 AI 系统）实现了与文本描述匹配的 NeRF。

Dream Fields 虽能生成单个对象，但要将生成 AI 扩展到完全不受限制的 3D 场景仍然是一个未解决的问题。一个原因是摄像机位置的限制：虽然每个有意义的摄像机位置都可以映射到单个物体上，但在 3D 场景中，有意义的摄像机位置受到物体和墙壁等障碍物的限制。如果在生成过程中未观察到相应的场景，则不会创建可用的 3D 场景。

Apple 的 GAUDI 模型通过三个专门的网络解决了这个问题：摄像头位置解码器预测可能的摄像头位置，确保输出是对 3D 场景架构有效的位置。而场景的另一个解码器则预测三层表示，提供一种 3D 画布，辐射场解码器在其上使用体积渲染方程绘制后续图像。

通过针对包括内部扫描数据集 ARKitScences 在内的四个不同数据集的实验，研究人员表明，GAUDI 可以在达到现有方法的质量的同时重建学习视图。Apple 还展示了 GAUDI 可以通过 3D 室内场景生成新的跟踪镜头。生成可以是随机的，从源图像开始，也可以通过输入文本使用文本编码器进行控制——例如“穿过走廊”或“上楼梯”。

GAUDI 生成的视频质量虽然较低，并且充满了伪影，但借助 AI 系统，Apple 为可渲染 3D 对象和场景的可控生成 AI 系统奠定了基础。对于 Apple 来说，一种可能的应用是为其 XR 眼镜生成数字位置。【编译自 mixed.de】

构建了一个充满可能性的世界，《Freeland》抢...

领域

媒介

专题

文类

发现

苹果新AI系统GAUDI能够由语句生成3D室内场景

发表评论取消回复

订阅

Carrie Able：一位创作混合现实艺术的“混...

《Corpus Misty》导演谈这部既抽象又真切...

《Age of Sail》：与VR的结合会拯救电影...

PanoMoments是一种沉浸式即时叙事媒介，被...

Dramatron：一个可以创作电影和戏剧剧本的A...

相关文章
Related

构建了一个充满可能性的世界，《Freeland》抢...

VR生存大作《Into The Radius》PS...

VR模组将热门科幻游戏《System Shock》...

MR游戏《Starship Home》9月26日在...

关于我们

文类

最新

构建了一个充满可能性的世界，《Freeland》抢...

VR生存大作《Into The Radius》PS...

VR模组将热门科幻游戏《System Shock》...

订阅

领域

媒介

专题

文类

发现

苹果新AI系统GAUDI能够由语句生成3D室内场景

发表评论 取消回复

订阅

相关文章Related

关于我们

文类

最新

订阅

发表评论取消回复

相关文章
Related