AI模型Transframer能从一张图像生成30秒的视频

DALL-E 2等人工智能系统能由一种视角的图像生成多种视角的变体,甚至更改原始图像的内容。最近,谷歌姊妹公司 Deepmind 展示的 AI 模型 Transframer 又进了一步:从一张图片即可生成 30 秒的视频。

Transframer 是一个视觉预测框架,可以解决八种图像建模和处理任务,例如深度估计、实例分割、对象检测和视频预测。该模型使用一系列带有相关注释的上下文图像进行了训练,因此能基于此处理对图像进行查询。

除了深度估计和物体识别等经典图像任务外,Transframer 还掌握了物体新视角的合成和视频序列的预测。

在一条简短的推文中,Deepmind 展示了 Transframer 从单个输入图像中构想出来的 6 个 约 30 秒的视频。尽管分辨率低,但可以看到一定的一致性。

根据 Deepmind 的说法,这表明像 Transframer 这样的框架适用于要求苛刻的图像和视频建模任务。研究人员称,转帧器还可以作为多任务处理者,解决以前使用专门模型的图像和视频分析问题。【数字叙事 Lighting】

有问题和想法?与数字诗人讨论、交流,以获得更多的信息、意见。

赞赏
lighting
lighting
笛卡尔的“思”正在进入明斯基的“情感机器”
本文系数字叙事原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

订阅

受欢迎的

相关文章
Related