星期文库机器博弈之五人工智能突破随机性谢立章

文章来源：大手笔网作者：

字体：大中小

发布时间：2020-06-26 16:02:14

2017年，在海南进行的“人机扑克巅峰表演赛”中，冷扑大师以792327的总分战胜中国龙之队。这是人工智能算法在非完美信息领域取得的重大突破，也是继阿尔法狗之后，机器博弈领域又一个里程碑。

冷扑大师背后的核心是博弈论，其中最重要的理念是纳什均衡。纳什均衡，是电影《美丽心灵》的主角原型数学家约翰·纳什于1950年发表的一个非常重要的博弈论概念：在多人非合作赛局里，玩家理性的情况下，存在一个最佳策略以达到利益平衡。纳什平衡意味着，博弈游戏中有个不败战略，不管对手用什么样的策略都不可胜，也即保持自己不败。

冷扑大师需要计算出德州扑克牌局里的纳什均衡。但问题是，游戏的可能性空间太大了。而聪明的科学家发现人工智能可以去模拟接近这个纳什均衡。

冷扑大师在算法上的设计，分为几个模块：

第一个模块，是在比赛前算出纳什均衡。冷扑大师团队通过超级计算中心，算出了几个不同的纳什均衡，最后使用的是一个比较有名的算法：虚拟遗憾最小化。先从随机开始，经过一系列训练后找到最优的策略，这点和蒙特卡洛树搜索很相似。

第二个模块，是残局解算。例如象棋里也有解残局的算法，但德州扑克的情况不太一样，因为它是随机性的游戏。有时第一步骤里的最优策略是不够的，残局解算会学习目前场面上的信息，来判断第一步中计算出的纳什均衡是否对目前局面有用。

第三个模块，是自我强化学习。德州扑克是一个寻找对手的短板来制定策略的游戏。顶级德扑选手强大之处在于，他们可以找出对手的漏洞。如果你试图攻破他们的短板，他们会很快改变策略，反过来找到你新暴露出来的弱点。因此前两个模块还不够，要强化进步。每天晚上，冷扑大师会找出自己表现最差的对局，重新用第一部分的算法重新计算，寻找策略。如果人类的选手找到了人工智能的短板，就会故意针对这个短板，那么人工智能就要针对这个短板再训练一次。

有意思的是，有选手表示，感觉冷扑大师会针对不同的对手定不同的策略，每打十手牌冷扑大师就会变一个策略，试图把十手牌打得很奇怪，像骗小孩一样。但其实冷扑大师并没有针对某个选手优化策略。虽然它每天进行强化学习，但并没有改进任何算法。因为改变算法是有风险的，目前的算法已经打得很好了，这就没必要去冒这个风险。选手的感觉其实只是错觉，冷扑大师对每个选手每天的策略其实是一模一样的。它并不针对任何一个选手，选手感觉到不同，只是因为冷扑大师找到了选手的短板，然后对其进攻。

冷扑大师的出现，成功突破了非完备信息博弈的随机性，这对于机器博弈来说意义非凡。

http://www.dashoubi.org/news/shwx/2020-06-26/136394.html

首页推荐

电影频道佳片有约《光》带来的温暖

观看电影是现在很多人再平常不过的娱乐方式，可对于无法看到光...

热门图片

星期文库 机器博弈之五 人工智能突破随机性 谢立章

星期文库机器博弈之五人工智能突破随机性谢立章