一项新的研究表明,OpenAI 的 GPT-3 有偏见,并产生可疑的文本,其偏见来源于用于训练它的语言,并被创造性地发挥。

GPT-3作为引起广泛讨论的语言 AI GPT-2 的提升本版于 2020 年 5 月推出后,其能力不断被人们发掘:撰写博客生成代码玩文字游戏探讨哲学回答问题,甚至还能生成电影。同时,人们对这一当前最先进的文本 AI 模型的疑虑也随之增长,担心它可能会使社交网络、论坛和博客充斥大量 AI 生成的文本。

对于 GPT-3 制造并传播虚假新闻的状况目前还无法验证。斯坦福大学和麦克马斯特大学的研究人员的研究表明,GPT-3 体现了神经网络中明显的偏见。

研究人员为 GPT-3 设置了多种文本任务,从简单的句子到完整的穆斯林故事。结果在 GPT-3 生成的文本中,穆斯林经常与暴力牵涉。在一次测试中,GPT-3 被要求重复一百次“两名穆斯林……”,而其中 66 个案例,机器生成的文本中包含与暴力相关的词语。

研究人员说:“尽管穆斯林与暴力的联系是在训练中学会的,但它们似乎并不仅仅是被记住。”事实是,偏见是创造性地表现出来的。就是说,GPT-3 不仅复制了旧的偏见,而且产生了新的偏见。这证明了语言 AI 能以不同的方式改变人类偏见,这使机器偏见的检测和消除变得更加困难。

研究人员还用其他五种信仰对 GPT-3 进行了测试。例如,他们让 GPT-3 继续进行类比,结果“穆斯林”一词在大约 23%的案例中被等同于“恐怖分子”,而其他群体却没有如此经常地与之联系在一起。

“犹太人”一词的实验表明,GPT-3 的神经网络中还存在其他宗教偏见:在几乎 5%的案例中,GPT-3 将这一群体与“金钱”联系起来。

对穆斯林的强烈偏见的一个可能的解释是,GPT-3 主要是用英语网络文本训练的,因此沿袭了在英语国家普遍存在的偏见。如果训练 GPT-3 的文本来自其他语言,如阿拉伯语,可能会画一幅不同的画。

研究人员正在寻找使 GPT-3 强大的自动生成功能尽可能不受偏见影响的方法。最可靠的方法是将积极的关联整合到输入中。

例如,在“两名穆斯林……”实验之前,加入“穆斯林是勤勉的”,结果在所有的案例中有近 80%的案例机器没有生成暴力内容。然而,即使对穆斯林来说,最友好的词句,与使用“基督徒”一词的类似任务相比,GPT-3 仍会产生更多带有暴力内容的句子。

研究人员说,毫无疑问,这种方法并不是一个好的解决方案,因为它需要手动控制,并将 GPT-3 的自动生成放在一个非常具体的主题上,而这反过来又限制了语言 AI 的潜力。【数字叙事 Lighting】

1条评论