DALL-E 2等人工智能系统能由一种视角的图像生成多种视角的变体,甚至更改原始图像的内容。最近,谷歌姊妹公司 Deepmind 展示的 AI 模型 Transframer 又进了一步:从一张图片即可生成 30 秒的视频。
Transframer 是一个视觉预测框架,可以解决八种图像建模和处理任务,例如深度估计、实例分割、对象检测和视频预测。该模型使用一系列带有相关注释的上下文图像进行了训练,因此能基于此处理对图像进行查询。
除了深度估计和物体识别等经典图像任务外,Transframer 还掌握了物体新视角的合成和视频序列的预测。

在一条简短的推文中,Deepmind 展示了 Transframer 从单个输入图像中构想出来的 6 个 约 30 秒的视频。尽管分辨率低,但可以看到一定的一致性。
根据 Deepmind 的说法,这表明像 Transframer 这样的框架适用于要求苛刻的图像和视频建模任务。研究人员称,转帧器还可以作为多任务处理者,解决以前使用专门模型的图像和视频分析问题。【数字叙事 Lighting】