人工智能已经涉足文化艺术的方方面面:写诗,回答哲学问题,绘画,创作雕塑和音乐……现在,AI 研究员扬尼克·基尔彻(Yannic Kilcher)又发掘了 AI 的另一种能力:由歌曲来生成视频。
在基尔彻发布的视频中,他表演了一首自编歌曲《成为我的鼬鼠》(Be my weasel),而 AI 系统则生成了与歌词匹配的图像。有些是清晰可辨的现实景象,另一些则是超现实的影像。
歌曲的歌词包含了 ImageNet 训练数据集中的一系列标签,而 AI 模型使用该数据集训练过,这是 AI 能够生成与文本匹配的图像的前提。
基尔彻使用了两个 AI 模型:OpenAI 的 CLIP 和 Deepmind 的 BigGAN。BigGAN 是一个 GAN 网络,用以生成图像。CLIP 则负责评估图像与特定文本的匹配程度。
CLIP 的评估被用作对 BigGAN 模型的反馈,BigGAN 模型不断生成新图像,直到 CLIP 给出文本和生成的图像之间很高的拟合度为止。在为文本的每个部分找到合适的图像后,基尔彻通过 BigGAN 模型内的网络从一个图像移动到另一个图像(例如,从鼬鼠到猪),并填充所有中间阶段,来制作视频。
BigGAN 中的表示形式允许相同歌词具有多种图像变体,基尔彻在他的视频中展示的是第二种变体。通过 GAN 网络制作连贯视频甚至数字环境是一个活跃的研究领域,基尔彻的实验再次表明人工智能将从根本上改变数字内容的生产。【数字叙事 lighting】
[…] 2.0 类似于 OpenAI 的DALL-E和CLIP或者谷歌的 LaMDA 和 MUM 的多模态模型。它用 1.2 TB 的中文和 1.2 TB […]