机器学习在自动文本摘要上不断取得突破。不久前,微软宣称其 AI 模型UniLM在摘要和语言生成上可以自行进行微调,以实现准确和流畅。近日,谷歌大脑和伦敦帝国理工学院的一个团队声称在新闻、科学、故事、指令、电子邮件、专利和立法法案等摘要任务中取得了最先进的成果,所构建的系统在低资源摘要方面有惊人的表现,其连贯性达到了很高的语言质量,无需微调来缓解不流畅。
研究团队指出,文本摘要旨在从输入文档生成准确和简洁的摘要。抽象摘要不是简单地从输入中复制片段,而是可能产生新单词并涵盖主要信息,从而使输出在语言上保持流畅。
该团队的研究基于神经架构 Transformers 之上。和所有的深度神经网络一样,Transformers 包含的功能(神经元)被安排在相互连接的层中,这些层传递输入数据的信号,并缓慢地调整每个连接的突触强度(权重)——这就是所有 AI 模型提取特征和学习做出预测的方式。但 Transformers 独特之处是,每个输出元素都连接到每个输入元素,并动态计算它们之间的权重。
在实验中,研究团队选择了性能最佳的 Pegasus 模型(该模型具有 5.68 亿个参数和从历史数据中学习到的变量),使之接受了从 3.5 亿个网页中抓取的 750GB 文本和从新闻网站收集的总计 3.8TB 的重大新闻文章的训练。
结果表明,Pegasus 在流畅性和连贯性方面达到了很高的语言质量,而且它不需要采取措施来缓解不流畅。此外,在只有 100 篇示例文章的低资源环境中,它生成的摘要质量可与在 20,000 到 200,000 篇文章的完整数据集上训练的模型相媲美。
【数字叙事 黎雾】