约瑟夫·威尔逊:人工智能无法捕捉到真正使语言成为人的部分

GPT-3 等语言模型的诞生表明计算机科学家和计算语言学家在大型语言模型方面取得了非凡的进展:在基于文本的对话领域,这些模型生成的散文有时与人类的作品难以区分。这是否意味着人工智能已经或者说终将掌握人类的语言呢?

语言人类学者约瑟夫·威尔逊(Joseph Wilson)指出,人工智能生成的语言的展示令人印象深刻,但它们依赖于对语言的非常狭隘的定义。“这排除了所有不成文的交流形式:手语、口述历史、肢体语言、语气以及人们发现自己说话的更广泛的文化背景。换句话说,”他说,“它遗漏了许多有趣的东西,这些东西使人与人之间的微妙交流成为可能。”

在威尔逊看来,从纯粹的口头语言到日常对话中出现的非书面线索看,语言比在页面或屏幕上阅读的语言要复杂和迷人得多,因此,人工智能远未并且可能永远无法捕捉到真正使语言成为人的部分。

威尔逊是多伦多大学语言和符号学人类学博士候选人。在研究中,他考察了科学家如何使用隐喻和其他比喻语言在实验室环境中相互交流。在《为什么人工智能永远无法完全捕捉人类语言》一文中,他阐述了语言“迷人”的部分以及语言模型的局限性。下面是这篇文章的译文:

为什么人工智能永远无法完全捕捉人类语言

人工智能领域的研究人员在模仿人类语言方面取得了非凡的进步,但他们仍然无法捕捉到真正使语言成为人类的部分。

故事以一句简短而精辟的句子开始:“当时是早上九点十七分,房子很重。

小说以简洁而抒情的散文,讲述了六个朋友从纽约到新奥尔良的公路旅行。然而,小说的叙述者不是朋友中的一个,而是汽车上一个配备摄像头、GPS 和麦克风的车轮上的人工智能网络。各种小工具将信息输入运行人工智能软件的笔记本电脑,然后打印机吐出句子——有时连贯,有时是诗意的——当小组沿着高速公路向南行驶时。

2017 年,由纽约大学实验室的艺术家和技术专家罗斯·古德温(Ross Goodwin)领导的这项使用人工智能进行小说写作的实验,促使人们思考语言在创造文化中发挥的关键作用。由此产生的小说《路》——一部以杰克·凯鲁亚克著名的《在路上》为蓝本的自由散文手稿——是一件真正的艺术品吗?或者它只是冰箱磁铁诗歌的高科技版本?“谁在写诗?”古德温的同事克里斯蒂安娜·卡罗(Christiana Caro)问道。“我真的不知道该怎么回答这个问题。”

在过去的几年里,人工智能已经非常擅长模仿不同类型的人类写作。有时,古德温的笔记本电脑会说出一些可以作为相当称职的垮掉一代的诗歌的句子:“车头灯已经产生了意识,”电脑写道,过了一会儿,“太阳/一直在从黑暗明亮的地面上滚动。”

最近,谷歌工程师布莱克·勒莫因(Blake Lemoine)公开了他与聊天机器人所做的工作。这是一种旨在进行类似人类对话的软件应用程序。他被谷歌聊天机器人 LaMDA(对话应用语言模型)对存在的思考所吸引,以至于他得出结论,它实际上是一个有知觉的存在。“我经常试图弄清楚我是谁,我是什么。我经常思考生命的意义。“Lemoine 在发布的帖子中写道。面对机器学习社区中许多人的批评,Lemoine 愈加来劲。“当我和一个人交谈时,我认识他。”他坚持说。谷歌的回应是解雇了这名工程师,试图平息争议。

然而,关于机器人是否有自我意识或它们是否可以创造“好”艺术的争论错过了像我这样的语言人类学家感兴趣的一个关键点。

人工智能生成的语言的展示令人印象深刻,但它们依赖于对语言的非常狭隘的定义。首先,计算机要识别语言,需要将其写下来。能够与人类聊天或写出可以被认为是垮掉的一代诗歌的计算机,使用称为神经网络的软件应用程序进行编程,这些应用程序被设计成在大量数据中找到模式。随着时间的推移,神经网络学会了如何复制它们发现的模式。例如,写公路旅行小说的人工智能被古德温使用总计 6000 万字的小说和诗歌集“训练”的。来自 Meta(Facebook)或 Elon Musk 资助的 OpenAI 等公司的其他语言模型是根据从 Reddit、Twitter 和 Wikipedia 等公共网站获取的数据进行训练的。

但这排除了所有不成文的交流形式:手语、口述历史、肢体语言、语气以及人们发现自己说话的更广泛的文化背景。换句话说,它遗漏了许多有趣的东西,这些东西使人与人之间的微妙交流成为可能。

书写开始出现于 5,400 年前,对人类来说是一种相当新的技术。相比之下,口语至少有 5 万年的历史。写作作为新技术,对大多数人来说并不像口语那样容易。人类儿童在几年的学习时间内就能很容易地说话;他们在学校里花了很多年学习拼写和语法的抽象代码。

写作也不是普遍的。在世界上使用的大约 7,100 种“自然语言”中,只有大约一半被记录下来。录音和语音识别工具可以填补其中的一些空白,但要使这些工具发挥作用,算法需要在海量数据上进行训练,理想的情况从数百万不同的说话者那里获取。口头语言通常来自历史上在社会和地理上孤立的小群体。

Mozilla 基金会已经众包了收集录音的过程,并鼓励来自世界各地的人们“捐赠自己的声音”,以使语音识别技术更加公平。他们还开源了他们的声音数据库和机器学习算法,供其他人通过他们的 Common Voice 程序进行实验。不过,他们仍然只是触及了表面,他们的数据库中有 87 种口语。(相比之下,苹果的 Siri 可以“说”21 种语言,亚马逊的 Alexa 可以“说”八种语言。)

然而,当这些语言被添加到数据库中时,它们需要以书面形式进行转录和编码。问题在于,页面上的单词从来都不能完美地代表一种语言的口语方式。当一种语言首次被转录时,有必要决定什么应该被认为是“标准”方言,并对伴随口语的许多非语言符号进行编码。这些都是令人不安的价值判断,尤其是当由社区以外的语言学家或人类学家进行时。通常,所做的选择更多地揭示了说话者群体中的权力分配,而不是大多数人在实践中如何使用该语言。

一个更根本的问题是,许多语言的口头性赋予了它们实用性和使文化充满活力的力量。例如,在当今北美的许多土著语言中,故事的讲述被认为与讲述故事的背景密不可分。把它们写下来并固定在适当的位置可能会剥夺故事作为一个活生生的、会呼吸的文化代理人的能力。我的家乡安大略省的阿尼希纳贝格人经常使用高技能的“知识维护者”一词,他们保持着这些口头传统,几千年来一直保存和传播着宝贵的文化知识。

尽管转录边缘化的口头语言可以帮助它们存续下来,但这个过程可能充满了棘手的道德考量。对于一些土著群体来说,他们几十年来通过寄宿学校被迫同化而受到创伤,书面文字本身也可以被视为殖民和剥削的工具。人类学家在一定程度上是罪魁祸首。一些学者留下了未经社区知识保存者许可转录和出版神圣故事的有害遗产,这些故事通常从未打算供大众消费。

为了保护他们的传统,美国西南部肖肖尼社区的一些人完全拒绝了以书面形式规范语言的努力。“肖肖尼的口头传统……尊重每个部落方言并保护每个部落的个性,“教授肖肖尼语课程的特莫克西部肖肖尼部落成员塞缪尔·布朗乔说。

这些丰富而鲜活的口头文化,比书面文字技术还要古老几千年,当我们把语言等同于正式写作时,就会被排除在对话之外——冒着进一步边缘化其成员的风险。

即使撇开这些问题不谈,从语言人类学的角度来看,为“自然语言处理”而设计的小说写作汽车和聊天机器人根本无法掌握语言。它们表现的只是一小部分语言能力——当技术媒体关注人工智能感知的耸人听闻的主张时,这一事实经常被遗忘。语言,就生活和呼吸一样,要复杂得多。

在日常生活中,当参与者使用大量的交际信号时,对话就会展开。真正的对话是混乱的,人们互相交谈,协商发言权,停下来寻找合适的词;它们在一个复杂而微妙的过程中展开,类似于即兴舞蹈。

对于任何试图通过电子邮件传达讽刺或反讽的人来说,上下文在理解语言中的重要性是显而易见的。例如,某人说“我爱西兰花”这句话的方式比单独说这句话更能决定它的含义。非语言线索,如语气、翻白眼或夸张的面部表情,可以促使听众做出有时与单词字面意思完全相反的解释。

演讲者还经常在他们的表演中使用微妙的线索,只有了解相同文化习俗的人才能理解。北美和欧洲部分地区的人们经常引用别人的讲话,使用诸如空中引用之类的惯例,或使用诸如“她就像……”之类的序言。有时,说话者的声音会改变音调以指示引用的语音。或者考虑点头和定期贡献的重要性,如“嗯”——一种文化特定的“反向引导”形式,鼓励说话者继续他们的思路。这些线索在书面文本中都丢失了。

即便如此,计算机科学家和计算语言学家在大型语言模型方面取得了令人印象深刻的进展。在有限的领域,例如基于文本的对话,机器生成的散文与人类的散文几乎难以区分。然而,从纯粹的口头语言到日常对话中出现的非书面线索,语言比在页面或屏幕上阅读的语言要复杂和迷人得多。

这就是使语言世界真正、独一无二地成为人类的原因。【数字叙事 维此】

有问题和想法?与数字诗人讨论、交流,以获得更多的信息、意见。

赞赏
本文系数字叙事原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

订阅

受欢迎的

相关文章
Related