人工智能玩复杂的战略游戏如《刀塔 2》和《星际争霸 2》已经达到世界一流水平,但仍然不能在游戏之间灵活切换。OpenAI希望通过一个用于 AI 训练的新游戏集合来改变这一现状。该游戏集合能不断为 AI 训练生成新的游戏片段,从而使 AI 自主适应新的游戏环境,并不断寻求新的解决方案。
强化学习(解释)被认为是实现超级 AI 的有前途的方法。这一方法使 AI 代理通过试错法学习赢得比赛:如果它的行为接近目标,它将得到奖励;如果他的行为偏离了轨道,他将受到惩罚。他一点一点地找到获胜的方法,并使行为变得更有效率。
用这种方法训练的 AI 模型甚至可以在超人的水平上掌握复杂的游戏。但是,由于它总是只学习一个游戏与相同的游戏部分,无法应付变化。即使是同一游戏的不同的游戏段顺序也会导致 AI 的性能显著降低。对于一款新游戏,AI 需要重新训练。这种过度适应也发生在其他 AI 区域,如图像分析 AI——即使是环境条件的微小改变也会导致性能的巨大损失。
现在,OpenAI 发布了一个用于增强 AI 学习能力的电子游戏测试环境,其中 16 个小游戏不断为 AI 训练生成新的游戏片段。其背后的理念是,通过许多不同的游戏和永久的变化,AI 应该获得不同的能力,并不断寻求新的解决方案。
通过这种方式,AI 被迫制定通用策略——因此,由于新环境的出现,它不会很快失败。至少在理论上是这样。
这 16 款游戏是简单电子游戏互动的典范:AI 跳跃,迷宫导航,躲避对手或击落飞船。这使 OpenAI 的 Procgen 基准比 Unity 的 Obstacle Tower 培训环境(后者也依赖于程序生成的环境)更加多样化。游戏的简单结构也能使开发中的迭代速度加快。
在最初的测试中,一个 AI 模型需要平均进行 500 到 1,000 次训练,然后才能在没有先前训练的情况下达到新的水平。OpenAI 写道,在将 AI 推广到控制一个新的部分之前,在某些情况下需要高达 10000 个训练级别。。
强化学习的基准需要寻找多样性,否则就不会发现过度适应。在《太空入侵者》50 级中成功的 AI 可能在未知的 51 级失败。这种拟合不会立即就显而易见:经过几次训练之后,AI 代理经常显示出改进。这导致了 AI 实际上控制游戏的谬论,而实际上它只是掌握了训练的水平。
然而,强化和广泛的训练是值得的:与监督学习不同,在监督学习中,AI 性能随着数据集太大或训练时间太长而降低,但随着学习的加强,AI 会不断提高性能。为什么这种现象在一种学习方法中发生而在另一种学习方法中没有发生,以及是否可以从中得出规则尚不清楚。
OpenAI 已经使用 Procgen 作为自己 AI 测试的基准。研究人员称,获得的结果将用于更复杂的 AI 实验。Procgen 在 Github 免费提供。
【数字叙事 黎雾】