学界不设目标也能通关马里奥的AI

选自arXiv

作者：YuriBurda等

机器之心编译

参与：高璇、晓坤

在强化学习中，设计密集、定义良好的外部奖励是很困难的，并且通常不可扩展。通常增加内部奖励可以作为对此限制的补偿，OpnAI、CMU在本研究中更近一步，提出了完全靠内部奖励即好奇心来训练智能体的方法。在54个环境上的大规模实验结果表明：内在好奇心目标函数和手工设计的外在奖励高度一致；随机特征也能作为强大的基线。

通过与任务匹配的奖励函数最大化来训练智能体策略。对于智能体来说，奖励是外在的，并特定于它们定义的环境。只有奖励函数密集且定义良好时，多数的RL才得以成功实现，例如在电子游戏中的「得分」。然而设计一个定义良好的奖励函数非常困难。除了「塑造」外在奖励外，也可以增加密集的内在奖励，即由智能体本身产生奖励。内在奖励包括使用预测误差作为奖励信号的「好奇心」和阻止智能体重新访问相同状态的「访问计数」。其思想是，这些内在奖励通过引导智能体对环境进行有效地探索，以寻找下一个外在奖励，从而缩小与稀疏外在奖励间的差距。

强化学习算法依赖外在于智能体的工程环境奖励。但是，用手工设计的密集奖励来对每个环境进行标注的方式是不可扩展的，这就需要开发智能体的内在奖励函数。好奇心是一种利用预测误差作为奖励信号的内在奖励函数。在本文中：（a）对包括Atari游戏在内的54个标准基准环境进行了第一次大规模的纯好奇心驱动学习研究，即没有任何外在奖励。结果取得了惊艳的性能，并在许多游戏环境中，内在好奇心目标函数和手工设计的外在奖励高度一致。（b）研究了使用不同的特征空间计算预测误差的效果，表明随机特征对于许多流行的RL游戏基准来说已经足够了，但是学习特征似乎泛化能力更强(例如迁移到《超级马里奥兄弟》中的新关卡)。（c）展示了随机设置中基于预测的奖励的局限性。

代码和模型链接：

转载请注明：http://www.rongweicar.com/lsyg/7809.html

上一篇文章：玩具日报泡泡玛特上半年收入818亿
下一篇文章：大乱斗新角色今晚见马里奥吃鸡发售