马里

乘风破浪的马里奥这个AI带你一口气通2


北京医院湿疹 https://m-mip.39.net/baidianfeng/mipso_8598816.html

大数据文摘出品

作者:牛婉杨

马里奥的系列游戏自打诞生以来就风靡全球,同时也陪伴了无数人的童年。

人工智能出现后,不少技术咖都开始尝试,能不能利用AI完成马里奥的一次通关梦?

比如,这里有一位马里奥游戏疯狂爱好者uvipen就在GitHub上贡献了两种不同的方法,都能让马里奥轻松游走在障碍之间!去年6月,uvipen从年的论文《AsynchronousMethodsforDeepReinforcementLearning》中得到了启发,用异步优势Actor-Critic算法(A3C)让马里奥顺利通过了32关中的9关。

显然,他对之前的方法不够满意,于是经过一年多的钻研,他带着新方法来了!这次,他用OpenAI公布的近端策略优化(ProximalPolicyOptimization,简称PPO)算法,成功助力马里奥通过32关中的29关,近乎通关!

效果大概是这样??

强迫症表示这也太舒适了吧,快来和文摘菌一起看看uvipen是如何做到的吧~

用PPO算法顺利通过29关!如果不行,那就换一个学习率

这个PPO是何来头?文摘菌也去了解了一下。

PPO全称是近端策略优化,听这个名字你可能觉得陌生,但是在人工智能圈,这个算法可是早就用于各种游戏对抗中了。

早在年,OpenAI年提出的用于训练OpenAIFive的算法就是PPO,也正是在它的帮助下,人工智能OpenAIFive首次在电子竞技游戏DOTA2国际邀请赛中打败世界冠军Dendi。

Dendi在第一局比赛中以2:0告负,而第二局仅开始十分钟Dendi就选择了直接认输。

由此看来,PPO的强大之处可想而知,它不仅具备超强的性能,且实现和调优要简单得多。这也正是uvipen选择使用PPO训练马里奥通关策略的原因。接下来文摘菌就为你介绍一下PPO~

近端策略优化(PPO),是对策略梯度(PolicyGraident)的一种改进算法。PolicyGradient是一种基于策略迭代的强化学习算法,PPO的一个核心改进是将PolicyGradient中On-policy的训练过程转化为Off-policy,即从在线学习转化为离线学习。

举一个比较通俗的例子,On-policy就好比你在下棋;而Off-policy就相当于你在看别人下棋。

而这个从在线到离线的转化过程被称为ImportanceSampling,是一种数学手段。




转载请注明:http://www.rongweicar.com/ddqh/8273.html


当前时间: