一种新的AI系统可以根据语言描述来生成图像

一种新的 AI 系统可以根据语言描述来生成图像。该 AI 系统名为 RetrieveGAN,由谷歌、加利福尼亚大学、默塞德大学和延世大学的研究人员创建,可用于艺术、设计或市场营销等领域。RetrieveGAN 的工作分为三个步骤进行:理解描述、搜索匹配的图像块和生成图像。此技术才刚刚起步,未来可能会彻底改变我们与媒体打交道的方式。

类似的 AI 已经存在,如微软研究院、京东人工智能研究院和奥尔巴尼大学的研究人员创建的机器学习框架ObjGAN,可以理解文字,草图布局,并根据确切的措辞来构建场景。但是 RetrieveGAN 的开发者承诺会有更好的结果,因为这一 AI 可以学习选择匹配的图像。

研究人员举了个运动场上运动员的例子:描述可能未清楚交代是足球运动员还是棒球运动员。较早的系统可能会犯下将两种运动的运动员填满棒球场的错误,而 RetrieveGAN 学会观察场景中不同对象之间的关系,从而提供连贯的图像。该 AI 用两个图像数据集 COC-Stuff 和 Visual Genome 进行了训练,能够 AI 选择一个又一个对象,并确保内容彼此匹配以及每个步骤中的指令得到执行。

图像通常仍然会模糊、扭曲或充满几何荒谬。但是,很明显,图像符合原始描述。研究人员写道,与老方法相比,RetrieveGAN 性能更好。

随着 AI 技术的发展,RetrieveGAN 会不断得到改进。下一步,研究人员希望通过增加图像的选择和改进学习过程来取得进步。【数字叙事 黎雾】

有问题和想法?与数字诗人讨论、交流,以获得更多的信息、意见。

赞赏
黎雾
黎雾
技术一直以来都是艺术不可或缺的因素
本文系数字叙事原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

订阅

受欢迎的

相关文章
Related