我们很容易就能理解所看到的场景,无论是判断对象的颜色,还是测量它们之间的距离;识别物品的属性并运用知识来回答有关它们的问题并不需要多少有意识的努力。但眼下对于大多数人工智能模型来说,这却难以做到。好消息是,视觉识别、语言理解和符号程序执行方面的新兴技术有望为它们注入概括新例子的能力。
麻省理工学院-IBM 沃森人工智能实验室的科学家们正在完善一种方法,这种方法可能会克服 AI 模型设计方面的长期障碍。沃森人工智能实验室是一个为期 10 年、耗资 2.4 亿美元的合作项目,旨在推动机器学习领域的科学突破。它将深度学习与象征主义哲学相结合,创建通过观察来了解世界的程序。象征主义哲学提倡将表象和逻辑规则作为智能机器的基石。
IBM 研究院人工智能和 IBM Q 部门副总裁达里奥·吉尔(Dario Gil)在上周的一次采访中是这样解释的:想象一下,你拿到了一张有一系列对象的照片,任务是对它们进行分类和描述。对于这个问题,一个纯粹的深度学习解决方案需要用数千个示例训练一个模型,而该模型可能会被这些问题的变体所绊倒。
“你需要把问题分解成各种各样的东西。”吉尔说,“你有一个视觉感知的挑战——你有一个问题,你必须理解这些词的意思——然后你有一个逻辑推理部分,你必须执行来解决这个问题。”
相比之下——像麻省理工学院、IBM 和 DeepMind 最近的一篇论文中描述的那样——符号推理方法利用了神经符号概念学习器(NS-CL),这是一种混合的模型,编程来理解文本中的“对象”和“空间关系”等概念。一个组件被松散地设置在由对象组成的场景数据集上,而另一个组件学习将自然语言的问题映射到由问答对组成的语料库中的答案。
该框架可以通过识别这些问题中的视觉概念来回答关于不同场景的新问题,使其具有高度可扩展性。另一个好处是,它比单独的深度学习方法只需更少的数据。
“从根本上说,完美地解决这项任务的数据效率是令人难以置信的。”吉尔说,“你可以用 1%的培训数据达到同样的精确度,这对 99.99%没有大量标注数据的企业来说是个好消息。”
麻省理工学院和 IBM 在符号推理方面的工作,是最近向人工智能注入有关世界语境知识的几项努力之一。在 6 月,Salesforce 的研究人员介绍了一个开源的语料库——常识解释(CoS-E)——可用于训练一个新颖的推理机器学习框架(Commonsense 自动生成解释,或 CAGE), 他们说这可以提升问答基准 10%的性能,并证明了在域外任务中推理的能力。
Salesforce 首席科学家理查德·索切尔(Richard Socher)表示,这可能为更有帮助、更少令人沮丧的 AI 助手奠定基础。想象一个机器学习算法,它可以直观地“知道”球从桌子上被推开时会发生什么,而无需明确地教它。
“事实证明,尽管在过去的十年里取得了很多突破,但从历史上看,要以一种算法能够真正有效的形式获取常识是非常困难的。”索切尔在之前的一次电话采访说,“我我对这项研究感到如此兴奋的原因是,这是捕捉常识性知识的第一种方法。事实证明,语言模型——读取文本并试图预测和理解下一个单词从而自动完成句子的简单模型——能捕捉这种常识性知识。”
随着更有能力的 AI 模型的出现,需要新的基准来衡量它们的性能。为此,Facebook 人工智能研究与谷歌 DeepMind、华盛顿大学和纽约大学联合在本月早些时候推出了 SuperGLUE,它是语言理解上的通用语言理解评估(GLUE)基准的替代者。它根据自然语言理解系统在九个英语句子理解挑战中的表现,给系统打分,重点是使用最先进的方法解决尚未解决的问题。
目前的问答系统主要集中在一些琐碎的问题上,比如水母是否有大脑。SuperGLUE 则更进一步,它要求机器对开放式问题给出深入的答案,比如“水母没有大脑是如何工作的?”Facebook 在一篇博文中解释道。
人工一般智能(AGI),或能够执行人类所能执行的任何智力任务的系统,或多或少仍是一个白日梦。但如果前沿的模型和方法得以应用的话,我们可能很快就发现自己能与 AI 助理进行有意义的对话。(编译自 venturebeat.com)
【数字叙事 原作:Kyle Wiggers;编译:Lighting】