OpenAI 为 GPT-3 推出了新的语言模型“text-davinci-003”,该模型使用基于人类反馈的强化学习(RLHF)进行训练,能生成更清晰、更引人入胜的内容,还可以处理更复杂的指令并撰写更长的文本。
使用 RLHF 训练的 AI 模型可以在相同甚至更低的参数下获得更好的结果。text-davinci-003 基于 OpenAI 今年早些时候推出的 InstructGPT 模型,该模型根据人类反馈进行了优化。OpenAI 研究员 Jan Leike 称,text-davinci-003 “在人类偏好评级上得分更高,且在根本上比基础模型更有能力”。Leike 也指出了新的 GPT 模型仍然存在“重要的局限性”,例如,有时会胡编乱造一些东西,但他表示这种失误现在应该有希望不那么频繁和不那么严重。
OpenAI 于 2019 年 9 月首次推出基于 GPT-2 的人类反馈训练流程。这家人工智能公司认为,人工智能训练过程中的人类反馈,以及人工智能与人类需求的一致性,是人类友好型 AI 的基础。
随着 text-davinci-003 的诞生,OpenAI 接下来可能会推出 GPT-4。OpenAI 目前正在运行一项资助计划,该计划的第一批参与者可能有机会最先访问 GPT-4。OpenAI 联合创始人 Wojciech Zaremba 在 9 月份描述了 GPT-4 的潜在新功能。他认为,人工智能将对人类交流产生与互联网类似甚至更大的影响。【数字叙事 Lighting】