2018,已经发生和尚未发生的人工智能革命

2018 年,人工智能在数字领域继续快速地崛起,将其神奇的力量注入各行各业的几乎每一个角落,并彻底改变了社会使用数据的方式。这一年,大大小小的公司都急于证明他们如何利用深度学习来创新自己的业务流程。而现实情况是,人工智能已经真正改变了视听识别等领域,给了我们理解语言的强大新工具,并让我们第一次瞥见了具有直觉性的算法的微光,但迄今为止绝大多数商业人工智能应用程序的世俗现实并没有多少改进。

今天我们以虔诚的口吻谈论深度学习,并赋予它一种近乎神话般的超人能力光环。各家公司争相在每个项目上撒上神奇的人工智能尘埃。即便是通常情况下十分严峻且存在风险的行业,也在不计后果地一头扎进人工智能“圣域”,方方面面都抛出了深度学习模式。投资机构已将“社交媒体”替换为“深度学习”,作为投资一个项目的前提条件,不管 AI 是否对事情具有最小的适用性。

在公众意识中,以及越来越多的高管的话语中,人工智能被描述为类似人类的算法,它们基本上是我们自己的孩童版本,每天都在进步,只要多给它们一些培训数据,它们在准确性方面的任何限制都可以立即被突破。

而现实是,今天的深度学习算法更多的是艺术而不是科学。准确性的提高不是简单地将更多的训练数据扔给算法,而是来自于对训练数据的仔细选择、复杂的调优、实验,以及不靠谱的运气。成功的算法是一个谜,即使是它们的创造者也不能完全理解,也不能在其他领域自动复制。即使是最精确的模型也常常是脆弱的,以至于最微小的变化或恶意干预都可能使它们偏离轨道。

如今的人工智能系统远非稚气的原始硅人,只不过是一些基本的统计封装,比过去的方法更有能力,更强大些,但与我们自计算机诞生以来一直在做的事情没有多大的差异。

在视听分析等一些领域,深度学习方法确实是革命性的,它使机器在理解和生成图像、语音和视频方面达到了几年前根本无法想象的精确度。神经视觉系统可以识别特定的汽车品牌和型号,即使它在沙漠中行驶,身上覆盖着盔甲、武器、旗帜和士兵。它可以理解放在桌子上的枪、指向空中的枪和对着人的枪之间的区别。它可以估计照片拍摄的地理位置,即使它看起来与训练图像有很大的不同。它还能创造出新的形象或语音,这些形象或话语具有诡异的人类特征。

这就是真正的人工智能革命发生的地方,为机器理解打开了新的模式。

与此同时,将人工智能用于更普通的文本和数字分析并不总是显示出相当程度的革命性改进。比如,取代统计机器翻译(SMT)的神经机器翻译(NMT),有时能达到与人类相似的流畅程度,但有时也很糟糕。虽然 NMT 系统确实可以在学术竞赛中获得更高的 BLEU 分数,但当应用于日常内容时,效果却不明显,因为它理解不了人类“胡言乱语”的逻辑。

问题在于 NMT 最终仍只是盲目地应用从大量培训数据中学到的统计模式,就像它的前辈 SMT 一样。NMT 系统只能应用学到的模式将一组符号转换成另一组,就像一个模仿艺术家的孩子,将颜色和形状放在相应的位置,却不知道想要画什么。与人类翻译不同的是,当今的神经模型并不能真正理解它们所阅读的概念和思想的深层含义,它们只是识别符号的模式,这跟 SMT 方法一样。NMT 系统在识别复杂得多的模式、执行复杂得多的重新排序和在更大的文本窗口中操作方面具有相当优越的能力,但仍然主要在句子或小块文本的级别上独立运行。距离生产型 NMT 系统,我们还有很长的路要走:它可以读取整个文本段落,将其提炼为它所讨论的抽象概念和观点,然后将其完全从基于思想的抽象表示形式转换为另一种语言,消除歧义,并带来语境化和框架的世界知识。

此外,大多数语言的训练数据缺乏,意味着即使最尖端的 NMT 系统仍然会像许多语言的 SMT 系统一样遭遇失败,或者遇到相同的问题,即流畅的段落被打断,导致文本的关键点无法理解。

神经文本处理作为一个整体,过程对结果有确定性影响。一些公司相信,深度学习解决方案将优于其他任何解决方案,因此不惜一切代价寻找深度学习解决方案,而没有认识到并非所有问题都适合当前的神经方法。

我见过太多的公司为一些最基本的任务构建深度学习解决方案,比如识别某个人或一个公司的全名。当被问及这种庞大而昂贵的深度学习模型是否优于对名字和一些变体的简单关键词搜索时,答案往往是他们从未真正尝试过,他们只是假设神经系统是正确的选择。最终的基准测试(如果真要执行的话)通常表明,神经方法实际上不那么准确,因为它对文本中的拼写和语法错误过于敏感,而且缺乏足够的训练数据来识别大多数边缘情况。

神经实体识别、分类、地理编码和情绪分析即使是最先进的算法也常常难以超越编写良好的经典方法的领域。关键是很少有商业部署写得很好。

大多数人仓促地将手工制作的规则和数据匮乏的贝叶斯模型混杂在一起。事实上,这是一种罕见的经典算法,它是由域向下构建的,而不是由代码向上构建的。情感算法尤其专注于程序员构建的简单朴素的代码算法,而不是后退一步,与心理学家和语言学家合作,理解人类如何交流情感,并构建工具来捕捉现实世界的复杂性和细微差别。

在这种情况下,神经方法可以帮助标准化模型创建,并将其强制转换为更强大的数据实践,但其好处通常主要来自创建工作流的更改,而不是神经方法本身的强大功能。事实上,对于我了解过的许多公司来说,深度学习方法的最大好处不是来自神经网络的能力,而是来自于由当前模型构建工作流强制执行的以数据为中心的标准化创建过程。

过去 5 年,我几乎将所有可以想到的机器理解应用于 100 多种语言的文本和视听新闻内容,并将精心制作的专家规则交给其中的每一个组合,来测试从神经到经典的机器学习。根据我的经验,神经方法为视听内容理解提供了巨大的准确性和能力飞跃,但在常规文本理解方面,使用精心设计的训练数据更少和稳健性更好的非神经解决方案效果更好。

问题是,虽然真正有能力的深度学习专家极为罕见,但后退一步能够构建出反映其所使用的数据和语境的强大系统的数据科学家更少。简而言之,神经方法给许多公司带来了相当大的好处,不是因为它使用了深度学习,而是因为它们的经典数据科学工作流非常糟糕,只好专注于算法而不是结果。

今天最大的挑战也许是像 Alphabet’s DeepMind 这样的人工智能研究小组的开创性工作与商业部门正在构建的死板的深层学习系统之间的巨大鸿沟,这些研究小组正在构建能够学习玩电子游戏和具备直觉的工具。使机器能够对世界进行推理,与外界通信和理解、快速学习新任务,并能对示例进行抽象和更高阶表示,甚至使之能自己创建,这些都是深度学习方法所独有的令人难以置信的能力。而“死记硬背”的分类过滤器和实体提取器——它们构成了商业部门深度学习利用的大部分——与之相差甚远。

综上所述,今天的人工智能更多的是神话和营销炒作,而非现实。企业急于在任何地方部署人工智能,声称自己拥有“人工智能驱动的业务”,但其部署的神经系统并不总是比它们取代的经典系统更准确。在许多情况下,它们实际上更糟糕。神经方法确实改变了视听理解,但在文本理解方面,神经方法并不总是代表着一个重大飞跃。

随着深度学习的开创性应用最终从 DeepMind 等地的研究实验室拓展到生产、商业世界,这可能会发生变化,但是现在,企业应停下来并询问深度学习是否真的是任何给定问题的答案,并进行广泛的基准测试,以得出结论。最重要的是,首先要重新考虑它们是如何创建软件系统的,以及当将创造性和严谨性引入神经方法以影响更传统的数据科学工作流时,会发生什么。

【数字叙事 原作:Kalev Leetaru;编译:Lighting】

有问题和想法?与数字诗人讨论、交流,以获得更多的信息、意见。

赞赏
lighting
lighting
笛卡尔的“思”正在进入明斯基的“情感机器”
本文系数字叙事原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

订阅

受欢迎的

相关文章
Related