评述论文:Superhuman AI formultiplayer poker (Science 12 July 2019: Vol 365, Issue 6449)   

  在过去十多年间,人工智能技术得到了飞速发展,在语音转文本、图像识别、机器翻译等很多特定任务中,智能算法都达到或超过了人类的感知能力(即判断是什么的能力)。随着计算机感知能力的不断提升,研究者开始更多关注于如何提升机器的认知能力(即推理为什么的能力)。  

  作为衡量机器认知水平的重要途径,游戏博弈能力被广泛地用来作为机器智能发展水平的测评基准和里程碑。从早期的西洋双陆棋、国际象棋,到最近的围棋、德州扑克、星际争霸、Dota2等,每一次技术上的突破都产生了强烈反响。 

  本期的《科学》杂志在线发表了图奥马斯·桑德赫尔教授团队的最新研究成果:在多人无限注德州扑克中战胜了人类专业选手。图奥马斯·桑德赫尔教授团队以六人无限注德州扑克这一最为常见的多人无限注德州扑克形式作为示例,提出了一种称之为Pluribus的多人无限注德州扑克博弈算法。    Pluribus算法的研究结果表明,即使在理论上还没有证明多人无限注德州扑克最优策略如何获取的情况下,通过精心设计的机器学习算法能够在最常见的六人无限注德州扑克中击败人类专业选手,从而再一次展现了机器智能算法在计算、搜索、评估和学习方面的强大能力。至于如何在理论上证明多人无限注德州扑克的最优策略是否存在、如果存在怎样去计算、以及与博弈的均衡策略之间的关系等问题,还需要研究者继续进行不断的探索。

  Pluribus算法主要包括三个过程:非完美信息博弈过程的抽象压缩、博弈策略的离线自博弈学习、以及博弈策略的在线实时搜索改进其中博弈过程的抽象压缩是为了减少博弈决策空间的大小,博弈策略的离线子博弈学习是为了学习得到博弈的蓝图策略,而博弈策略的在线实时搜索改进则是为了针对特定的博弈形势,通过精准搜索改进蓝图策略,提升在线博弈水平。 

  这三个过程与团队之前针对两人无限注德州扑克博弈设计的智能程序Libratus算法过程类似,Pluribus在技术上的创新点主要是针对多人无限注德州扑克的特点,对博弈策略的离线自博弈学习过程和在线搜索过程进行了相应改进。 

  由于多人无限注德州扑克的博弈树分支数量巨大,无法穷举搜索,因此Pluribus在离线自博弈过程中使用了一种改进的蒙特卡洛反事实后悔值(Monte Carlo CounterFactual RegretMCCFR)最小化方法,该方法在博弈树的每个节点只进行采样搜索,提高了搜索的效率,通过多次迭代优化,不断减少当前策略价值与可能的最优策略价值之间差值(后悔值),从而使得当前策略的期望胜率不断提升。  在在线实时搜索改进过程中,离线学习得到的蓝图策略只用于德州扑克第一次下注过程的搜索,在后面三次下注过程都使用了实时的在线搜索算法。为了防止搜索得到的策略过于单一而被对手利用,Pluribus使用了一种改进型的在线搜索算法(图1)。在每次搜索过程中,Pluribus没有假设对手都使用一种固定策略,而是假设对手可以随机使用k种不同的策略,这样在策略搜索和评估过程中都会同时考虑k种不同的可能,大大增强了搜索策略的灵活性,使得对手无法轻易获取Pluribus策略的弱点,进而提升了策略的最终胜率。 

  Pluribus算法的研究结果表明,即使在理论上还没有证明多人无限注德州扑克最优策略如何获取的情况下,通过精心设计的机器学习算法能够在最常见的六人无限注德州扑克中击败人类专业选手,从而再一次展现了机器智能算法在计算、搜索、评估和学习方面的强大能力。至于如何在理论上证明多人无限注德州扑克的最优策略是否存在、如果存在怎样去计算、以及与博弈的均衡策略之间的关系等问题,还需要研究者继续进行不断的探索。 

  

 

  1. Pluribus算法中的实时在线搜索过程,为了简化显示,两幅子图都只描述了两个选手的博弈过程,两个节点之间使用虚线连接表示当前选手不知道自己处于哪一个节点(因为对手信息不完全的缘故)。为了防止搜索得到的策略过于单一而被对手利用,Pluribus算法没有假设对手只使用一种固定的策略,而是假设对手可能使用k种不同的策略。左图:表示原始的博弈子树,假定对手只使用一种固定的策略;右图:表示转化后的博弈子树,对手使用了k种(k=2)不同的策略。 

 
 
 
  
附件: