庞大的数据集带来了人工智能在语言处理和图像分析和方面的巨大进步。IBM 现在希望将 AI 的进步带入编程领域,这可能会彻底改变软件开发。
虽然 OpenAI 的语言 AI 模型GPT-3已经可以按需生成简单的 HTML 代码,但该语言模型尚未展现出真正全面的编程能力。一个可能的原因是:大多数训练数据是常规文本,偶尔生成的代码行只是 Internet 上的数据收集的附带作用。
现在,IBM 已经发布了庞大的 CodeNet 数据集,可用于编码 AI 的研究。据介绍,CodeNet 包含超过 55 种不同编程语言的 1400 万个代码示例,总共有 5 亿行代码,其中超过 90%的示例包含问题描述,几乎一半的示例提供了输入和输出示例。
研究人员表示,经过 CodeNet 训练的 AI 模型可以学会智能地搜索代码,查找功能上重复的代码,将有问题的代码与正确的代码区分开,自动改进代码,在编程语言之间翻译代码,甚至独立编写代码。