2017年,在海南进行的“人机扑克巅峰表演赛”中,冷扑大师以792327的总分战胜中国龙之队。这是人工智能算法在非完美信息领域取得的重大突破,也是继阿尔法狗之后,机器博弈领域又一个里程碑。
冷扑大师背后的核心是博弈论,其中最重要的理念是纳什均衡。纳什均衡,是电影《美丽心灵》的主角原型数学家约翰·纳什于1950年发表的一个非常重要的博弈论概念:在多人非合作赛局里,玩家理性的情况下,存在一个最佳策略以达到利益平衡。纳什平衡意味着,博弈游戏中有个不败战略,不管对手用什么样的策略都不可胜,也即保持自己不败。
冷扑大师需要计算出德州扑克牌局里的纳什均衡。但问题是,游戏的可能性空间太大了。而聪明的科学家发现人工智能可以去模拟接近这个纳什均衡。
冷扑大师在算法上的设计,分为几个模块:
第一个模块,是在比赛前算出纳什均衡。冷扑大师团队通过超级计算中心,算出了几个不同的纳什均衡,最后使用的是一个比较有名的算法:虚拟遗憾最小化。先从随机开始,经过一系列训练后找到最优的策略,这点和蒙特卡洛树搜索很相似。
第二个模块,是残局解算。例如象棋里也有解残局的算法,但德州扑克的情况不太一样,因为它是随机性的游戏。有时第一步骤里的最优策略是不够的,残局解算会学习目前场面上的信息,来判断第一步中计算出的纳什均衡是否对目前局面有用。
第三个模块,是自我强化学习。德州扑克是一个寻找对手的短板来制定策略的游戏。顶级德扑选手强大之处在于,他们可以找出对手的漏洞。如果你试图攻破他们的短板,他们会很快改变策略,反过来找到你新暴露出来的弱点。因此前两个模块还不够,要强化进步。每天晚上,冷扑大师会找出自己表现最差的对局,重新用第一部分的算法重新计算,寻找策略。如果人类的选手找到了人工智能的短板,就会故意针对这个短板,那么人工智能就要针对这个短板再训练一次。
有意思的是,有选手表示,感觉冷扑大师会针对不同的对手定不同的策略,每打十手牌冷扑大师就会变一个策略,试图把十手牌打得很奇怪,像骗小孩一样。但其实冷扑大师并没有针对某个选手优化策略。虽然它每天进行强化学习,但并没有改进任何算法。因为改变算法是有风险的,目前的算法已经打得很好了,这就没必要去冒这个风险。选手的感觉其实只是错觉,冷扑大师对每个选手每天的策略其实是一模一样的。它并不针对任何一个选手,选手感觉到不同,只是因为冷扑大师找到了选手的短板,然后对其进攻。
冷扑大师的出现,成功突破了非完备信息博弈的随机性,这对于机器博弈来说意义非凡。
http://www.dashoubi.org/news/shwx/2020-06-26/136394.html