多模态人工智能有了新的进步,Nvidia 展示的图像 AI 模型 GauGAN 2 仅凭短文本即可生成照片般逼真的风景图像

2019 年春季,Nvidia 研究人员推出了神经 GA 网络 GauGAN,它可以通过简单地将分割的颜色区域放在一起生成逼真的风景。艺术家使用不同的画笔代表特定类别的对象:地面上的一个蓝点变成了湖泊,它的上面变成了天空,几条绿线让森林得以生长,等等。该 AI 模型能做到这一点,是因为通过使用 Flickr 照片平台上数百万张风景图片进行训练后,已经对风景照片中各个图像元素之间的关系有了基本的理解。

作为 GauGAN 的升级版本,GauGAN2 无需对景观进行初步绘制,而是纯粹根据文本描述生成风景图像。像“海滩上的日落”这样的描述便产生了“石滩”的景象,而文本的微小变化也会使图像随之变化。

Nvidia 将文本输入与 GauGAN 已有的绘画工具相结合:在 AI 生成风景之后,可以使用 AI 画笔和其他工具编辑和扩展场景的各个片段。Nvidia 称,这种多模态 AI 还可以生成梦幻般的风景。

据 Nvidia 介绍,该模型有大约 1 亿个参数,专为生成景观而设置。在选择用于 AI 训练的图像时,Nvidia 确保图像中看不到任何人。在不到一个月的时间里,GauGAN2 已经接受了 1000 万幅风景图像的训练。

GauGAN2 目前仍然是一个研究项目,其目的是将多种模式——文本、语义分割、草图和样式——合并到一个 AI 模型中。OpenAI(DALL-E)、Alphabet(MUM)等公司也在试验这种多模态 AI 模型,这将引领人工智能应用走向更加灵活的未来。

Nvidia 今年夏天推出了第一个 GauGAN 模型,其应用程序 Canvas 已作为 RTX 显卡的免费软件提供。GauGAN2 集成到 Canvas 或其他应用程序中应该只是时间问题。

现在,Nvidia 已经为 AI 艺术家提供 GauGAN 2 交互式浏览演示。“GauGAN2 研究演示表明了为艺术家提供强大成像工具的未来可能性。”Nvidia 表示。据说星球大战艺术家 Colie Wertz使用 GauGAN 生成了梦幻风景的概念图。【本文最初发布于反讽机器