要想使人工智能模型获得人类的智慧,应该训练它们以人类惯常的方式学习。Facebook 正在这样做:使用三千多个小时的第一人称视角的视频,训练 AI 系统像人类一样看待和理解世界。这将有益于包括 VR、AR 在内的元宇宙(Metaverse)的构建。

当前的 AI 系统通过处理大量的数据来学习——例如数百万个维基百科页面、照片或视频。在这些数据的帮助下,AI 可获得有关世界的部分知识,然后被应用于各种专业场景。这跟人类的学习方式相似。但人类还有另一种学习方式,即,从很小的时候就通过周游世界并体验它来获得了对世界及其联系的基本理解。

Facebook AI 负责人迈克·斯科洛普夫(Mike Schroepfer)认为,如果能让 AI 以这种方式学习,就有可能开发出“更智能、更有用的技术”,AI 就能更像人类一样看待世界。

为此,Facebook 与 13 所大学组成的国际联盟创建了训练数据集 Ego4D。据称,它主要由来自全球 9 个国家的 74 个地点的 855 名参与者收集的 3025 小时的第一人称视角视频构成,这比以前可用的可比数据集多 20 倍,具有前所未有的多样性。视频展示了日常生活中的场景,如洗碗、演奏乐器或在车间工作。

“Ego4D 使 AI 够获得植根于物质和社会世界的知识,并从生活在其中的人们的自我角度获得这些知识。”Facebook 的 AI 高级研究员克里斯汀·格劳曼 (Kristen Grauman) 说,“AI 不仅能开始更好地了解您周围的世界,有朝一日还可以在个人层面进行个性化。”

据格劳曼介绍,Facebook 正在利用 Ego4D 进行受 AI 助理启发的原型的研发。使用 Ego4D 训练的 AI 助理将可以记住某个物体的放置位置,然后使用视觉 AR 帮助引导搜索者找到该物体。她还举了另一些例子,如 AI 助理认出你最喜欢的咖啡店,或者选择家庭旅行的路线,甚至教你弹琴。

Ego4D 将促进第一人称视觉感知的研究。Facebook 希望通过 Ego4D 训练的 AI 系统能够加深对世界的理解,从而为使用 AR 和 VR 创造“沉浸式体验新时代”奠定基础。11 月,Ego4D 将针对研究人员发布,同时提供基准测试,以验证使用该数据集训练的 AI 系统的功能,如情景记忆、预测、手与对象操作、视听日记和社交互动等。

根据 Facebook 的说法,这些基准测试旨在培养更聪明的 AI 助手,使他们在现实世界和元宇宙中都有出色的表现。“在元宇宙中,物理现实、AR 和 VR 在一个空间中结合在一起。”斯科洛普夫说,“我迫不及待地想看看这会带来什么。”【本文最初发布于反讽机器