不久前,Meta 推出了 AI 系统“Make-a-Video”,可以由文本、图像生成短视频,也可以改变现有视频的细节来生成新的视频。现在,谷歌也推出了一个由文本到视频的 AI 系统,名为“Imagen Video”,可生成高清视频。
据研究团队介绍,Imagen Video 沿用了图像 AI 模型 Imagen 的扩散技术,保留了 Imagen 的优势,并采用基于“视频扩散模型的级联”更复杂的设置,将其扩展到了时态域。该系统同时使用图像和视频进行训练。对于文本处理,该系统依赖于一个大型的经过预先训练的 Transformer 语言模型(T5-XXL),这跟 Imagen 模型一样。
Imagen Video 的突出之处是高分辨率与相对较高的帧速率的结合:在每秒 24 帧的速度下达到 1280 x 768 像素的高清标准。而 Make-a-Video 在初始测试中生成的视频最大分辨率为 768 x 768,帧速率也较低。
研究团队称,Imagen Video 与图像生成系统一样,掌握了各种艺术风格(从像素艺术到梵高),能理解 3D 对象。研究人员称,Imagen Video 还提供了“高度的可控性和世界知识”,能够根据文本命令非常准确地生成视频。
不过,与 Meta 的 make-a-video 一样,Imagen Video 生成视频的长度有限:当前最长为五秒。因此,该系统擅长于生成长的动画而不是视频。
但解决这个问题的路径,谷歌已有探索,并通过另一个文本到视频的 AI 系统 Phenaki 证明了 AI 可以生成长视频,该系统可以从相互构建的提示中生成整个故事场景。Imagen Video 研究人员称,下一步会将 Imagen Video 的图像质量与 Phenaki 在生成内容连贯性和视频长度上的能力结合起来。
与 Imagen 一样,Imagen Video 目前尚未发布。原因也一样:使用部分“有问题的数据”进行了训练。虽然内部测试已经过滤掉了许多不适宜的内容,但社会偏见和陈规陋习仍会被复制。研究团队称,识别和过滤这些是一项挑战。【数字叙事 Lighting】