由于手部遮挡和手部移动的复杂方式,机器理解手部与物体的交互仍然是一个挑战。Meta Reality Labs 的研究人员发布了一个名为 HOT3D(Hand and Object Tracking)的数据集,希望帮助开发基于视觉的系统,以更好地理解手与物体的交互,从而实现新的应用。
“这样的系统将能够实现用户之间的手动技能转移,首先捕捉专家用户执行一系列手部与物体交互的动作(组装家具、发网球等),然后使用捕获的信息指导经验不足的用户,例如通过 AR 眼镜,这些技能也可以从人类转移到机器人身上,使自主机器人能够即时学习。该系统还可以帮助 人工智能助手更好地理解用户行为的背景,或为 AR/VR 用户提供新的输入功能,例如,将任何物理表面变成虚拟键盘,或将任何铅笔变成多功能魔杖。”研究人员在论文中写道。
该数据集包含超过 800 分钟的以自我为中心的视频记录,展示了与 33 种日常物品的互动。除了拿起、看和放下物品的简单场景外,该数据集还包括厨房、办公室和客厅环境中的典型动作。该数据集可在 Meta 的 HOT3D 项目页面上找到。
Meta 面前两款设备用于捕获视频数据:Project Aria 研究眼镜和 Quest 3 VR 头显,因此数据集可能主要用于训练该公司现有和未来的 AI/AR/VR 眼镜和头显的 AI 系统。