AI模型Transframer能从一张图像生成30秒的视频

DALL-E 2等人工智能系统能由一种视角的图像生成多种视角的变体，甚至更改原始图像的内容。最近，谷歌姊妹公司 Deepmind 展示的 AI 模型 Transframer 又进了一步：从一张图片即可生成 30 秒的视频。

Transframer 是一个视觉预测框架，可以解决八种图像建模和处理任务，例如深度估计、实例分割、对象检测和视频预测。该模型使用一系列带有相关注释的上下文图像进行了训练，因此能基于此处理对图像进行查询。

除了深度估计和物体识别等经典图像任务外，Transframer 还掌握了物体新视角的合成和视频序列的预测。

在一条简短的推文中，Deepmind 展示了 Transframer 从单个输入图像中构想出来的 6 个约 30 秒的视频。尽管分辨率低，但可以看到一定的一致性。

根据 Deepmind 的说法，这表明像 Transframer 这样的框架适用于要求苛刻的图像和视频建模任务。研究人员称，转帧器还可以作为多任务处理者，解决以前使用专门模型的图像和视频分析问题。【数字叙事 Lighting】