谷歌新AI系统Imagen Video可由文本生成高清视频

不久前，Meta 推出了 AI 系统“Make-a-Video”，可以由文本、图像生成短视频，也可以改变现有视频的细节来生成新的视频。现在，谷歌也推出了一个由文本到视频的 AI 系统，名为“Imagen Video”，可生成高清视频。

据研究团队介绍，Imagen Video 沿用了图像 AI 模型 Imagen 的扩散技术，保留了 Imagen 的优势，并采用基于“视频扩散模型的级联”更复杂的设置，将其扩展到了时态域。该系统同时使用图像和视频进行训练。对于文本处理，该系统依赖于一个大型的经过预先训练的 Transformer 语言模型（T5-XXL），这跟 Imagen 模型一样。

Imagen Video 的突出之处是高分辨率与相对较高的帧速率的结合：在每秒 24 帧的速度下达到 1280 x 768 像素的高清标准。而 Make-a-Video 在初始测试中生成的视频最大分辨率为 768 x 768，帧速率也较低。

研究团队称，Imagen Video 与图像生成系统一样，掌握了各种艺术风格（从像素艺术到梵高），能理解 3D 对象。研究人员称，Imagen Video 还提供了“高度的可控性和世界知识”，能够根据文本命令非常准确地生成视频。

不过，与 Meta 的 make-a-video 一样，Imagen Video 生成视频的长度有限：当前最长为五秒。因此，该系统擅长于生成长的动画而不是视频。

但解决这个问题的路径，谷歌已有探索，并通过另一个文本到视频的 AI 系统 Phenaki 证明了 AI 可以生成长视频，该系统可以从相互构建的提示中生成整个故事场景。Imagen Video 研究人员称，下一步会将 Imagen Video 的图像质量与 Phenaki 在生成内容连贯性和视频长度上的能力结合起来。

与 Imagen 一样，Imagen Video 目前尚未发布。原因也一样：使用部分“有问题的数据”进行了训练。虽然内部测试已经过滤掉了许多不适宜的内容，但社会偏见和陈规陋习仍会被复制。研究团队称，识别和过滤这些是一项挑战。【数字叙事 Lighting】

构建了一个充满可能性的世界，《Freeland》抢...

领域

媒介

专题

文类

发现

谷歌新AI系统Imagen Video可由文本生成高清视频

发表评论取消回复

订阅

Carrie Able：一位创作混合现实艺术的“混...

《Corpus Misty》导演谈这部既抽象又真切...

《Age of Sail》：与VR的结合会拯救电影...

PanoMoments是一种沉浸式即时叙事媒介，被...

《再生产》：一种沉浸式的智能艺术媒体

相关文章
Related

构建了一个充满可能性的世界，《Freeland》抢...

VR生存大作《Into The Radius》PS...

VR模组将热门科幻游戏《System Shock》...

MR游戏《Starship Home》9月26日在...

关于我们

文类

最新

构建了一个充满可能性的世界，《Freeland》抢...

VR生存大作《Into The Radius》PS...

VR模组将热门科幻游戏《System Shock》...

订阅

领域

媒介

专题

文类

发现

谷歌新AI系统Imagen Video可由文本生成高清视频

发表评论 取消回复

订阅

相关文章Related

关于我们

文类

最新

订阅

发表评论取消回复

相关文章
Related