您现在的位置是:首页 >游戏 > 2022-10-09 01:28:50 来源:
Unity Technologies已经为Obstacle Tower Challenge赢得了最高奖项
经过六个月的竞争,Unity Technologies已经为Obstacle Tower Challenge赢得了最高奖项,这是一项致力于为游戏制作人工智能的竞赛。
获奖者是Compscience.org团队的Alex Nichols和Songbing Choi。Unity3D游戏引擎的制造商Unity也宣布它为研究界提供了开源的障碍塔,以满足他们自己的需求。
2月开始的挑战是通过提供Unity内置的具有挑战性的新基准来帮助促进AI社区的研究。该基准测试称为障碍塔(Obstacle Tower),目前的机器学习算法难以解决。
它通过专注于程序生成来突破现场可能的界限。关键是只允许参与者访问障碍塔的100个实例,并在他们从未见过的一组独特的程序生成的塔上评估他们训练有素的代理。
通过这种方式,代理不仅必须能够解决他们之前看到的环境版本,而且还能够很好地处理意外变化,这是智能的一个关键属性,称为泛化。
一旦Unity创建了障碍塔,它就会使用当时最先进的两种算法进行初步基准测试。Unity的学习代理能够在平均三层楼上解决这些看不见的用于评估的塔楼实例。
自比赛开始以来,Unity收到了近3,000名提交的代理商。参与者提交的前六名最终代理商能够解决超过10层的看不见的塔楼版本,顶部入口平均解决了近20层楼。
名为unixpickle的亚历克斯·尼科尔斯(Alex Nichols)获得了19个楼层的第一名。预计Unity不会超过10层。第二名是位于Universeat Pompeu Fabra的Compscience.org的一个名为giadefa的团队,其次是位于韩国首尔的生物医学工程师Songbin Choi。
荣誉提及包括Joe Booth(joe_booth),Doug Meng(dougm)和UEFDL(Miffyli)。
Nichols从11岁起就开始编程。作为高中的一名高年级学生,他对人工智能非常感兴趣,并自学了这门课程。他在康奈尔大学学习了三个学期,然后离开去全职工作并最终加入OpenAI(他已经离开但仍然对AI保持着浓厚的兴趣)。
Nichols分几步训练他的经纪人。首先,他训练了一个分类器来识别物体(盒子,门等等)。整个过程中使用此分类器来告诉代理在过去的50个时间步骤中看到了哪些对象。然后,他使用行为克隆训练代理人模仿人类示威活动。
最后,Nichols使用了一种PPO变体,他将其称为“层次结构”,根据游戏的奖励函数微调他的行为克隆代理。PPO的这种变体用一个KL术语替换熵项,使代理保持接近原始行为克隆策略。
他尝试了一些其他方法并没有完全成功:GAIL用于更多样本效率的模仿学习,CMA-ES从头开始学习策略,并从分类器中堆叠最后一层功能并将其提供给代理(而不是使用分类器的输出为状态)。
开源版本
Unity表示,Obstacle Tower的所有源代码现在都可以在Apache 2许可下使用。
“我们等待这个版本发布,直到比赛完成,以防止任何人对任务或评估过程进行逆向工程。现在它已经结束了,我们希望研究人员和用户能够把事情分开来帮助学习如何更好地解决任务,以及根据自己的需要修改障碍塔,“比赛组织者Arthur Juliani和Jeffrey Shih说。 ,在博客文章中。
障碍塔是高度模块化的,并且在很大程度上依赖于环境的多个方面的程序生成,从地板布局到每个房间的项目和模块放置。
“我们希望这种模块化将使研究人员能够轻松地使用我们构建的部件和工具来定义他们自己的自定义任务,”Juliani和Shih说。
障碍塔挑战的焦点是Unity所谓的弱泛化(有时称为分布内泛化)。为了应对挑战,代理商可以使用100座塔楼,并在另外5座塔楼上进行了测试。重要的是,所有这些塔都是使用相同的规则生成的。因此,代理商没有什么大惊喜。
同样令人感兴趣的是一种不同类型的概括,Unity称之为强类(或有时称为分配)。在这种情况下,代理将在Obstacle Tower的版本上进行测试,该版本是使用训练集中的一组不同规则生成的。
Unity在评估阶段有一个单独的视觉主题,它使用不同的纹理,几何和照明。
“我们认为像这样的基准可以更好地衡量人工智能的进展。我们期待社区扩展我们的工作并使用这个开源版本提出自己的建议,“Juliani和Shih说。
该项目的合作者还包括Julian Togelius和Ahmed Khalifa。Google Cloud提供了GCP信用和AICrowd技术来托管挑战。
还有待取得进展。障碍塔的每个实例包含100个楼层。这意味着仍有80%的塔未解决。Unity表示正在招聘人工智能专家。