卡内基梅隆大学(Carnegie MellonUniversity)的研究人员称,今年早些时候,一种人工智能击败了四位顶级职业扑克玩家,使用三管齐下的方法来掌握一种比宇宙中的原子更有决策点的游戏。
在今天由《科学》杂志在线发表的一篇论文中,计算机科学教授图马斯·桑德霍尔姆和博士诺安·布朗。 计算机科学系的D.名学生详细介绍了他们的人工智能是如何通过将游戏分解成计算上可管理的部分来实现超人的性能的,并根据对手的游戏游戏,在竞争中修复其策略中的潜在弱点。
人工智能项目击败了跳棋、象棋和围棋中的顶级人类-所有这些都是具有挑战性的游戏,但其中两个玩家都知道游戏的确切状态。 相比之下,扑克玩家与隐藏的信息——他们的对手持有什么牌,以及对手是否在虚张声势。
在2017年1月匹兹堡里弗斯赌场的一场为期20天的比赛中,Libratus成为第一个击败顶级人类球员的人工智能,在头上没有限制的德州扑克-主要的基准和长期的挑战问题,不完美的信息游戏解决问题。
在双人游戏中,Libratus单独击败了每个玩家,并集体积累了180多万$筹码。 以毫厘大百叶窗(mbb/hand)衡量,这是一种不完美的信息游戏AI研究人员使用的标准,Libratus以147mmb/手决定性地击败了人类。 在扑克游戏里,这是每场14.7大百叶窗
桑德霍尔姆和布朗在论文中说:“Libratus的技术不使用专家领域知识或人类数据,也不是扑克特有的。” 因此,它们适用于许多不完美的信息游戏。 他们指出,这种隐藏的信息在现实世界的战略互动中无处不在,包括商业谈判、网络安全、金融、战略定价和军应用。
Libratus包括三个主要模块,其中第一个模块计算游戏的抽象,它比考虑游戏中所有10161(数字1后面跟着161个零)可能的决策点更小,更容易解决。 然后,它为早期的德克萨斯州霍尔德姆制定了自己的详细策略,并为以后的几轮制定了一个粗略的策略。 这种战略被称为蓝图战略。
扑克中这些抽象的一个例子是将相似的手组合在一起,并对它们进行相同的处理。
布朗说:“从直觉上看,高花红和高花红没有什么区别。” “把这两只手当作同一只手可以减少游戏的复杂性,从而使它在计算上更容易。” 同样,类似的投大小也可以分组在一起。
但是在游戏的最后一轮中,第二个模块根据游戏状态构造了一个新的、更细粒度的抽象。 它还实时计算这个子游戏的策略,利用指导的蓝图策略来平衡不同子游戏之间的策略-这是实现安全子游戏解决需要做的事情。 在一月份的比赛中,Libratus使用匹兹堡超级计算中心的布里奇电脑进行了这项计算。
每当对手进行不在抽象中的移动时,模块计算包含对手移动的子游戏的解决方案。 桑德霍尔姆和布朗称之为嵌套子博弈求解。
深斯塔克,一个人工智能创建的阿尔伯塔大学,发挥提示,无限制的德克萨斯霍尔德姆,也包括一个类似的算法,称为持续的重新解决;然而,深斯塔克还没有测试与顶级职业球员。
第三个模块旨在随着竞争的进行改进蓝图战略。 通常,Sandholm说,AIS使用机器学习来发现对手策略中的错误并加以利用。 但是,如果对手改变策略,这也会打开人工智能的开发。
相反,Libratus的自我改进模块分析对手的赌注大小,以检测Libratus蓝图策略中的潜在漏洞。 然后,Libratus添加这些缺失的决策分支,为它们计算策略,并将它们添加到蓝图中。
除了击败人类专业人士,Libratus被评估为最好的先前扑克AIS。 其中包括由Sandholm和Brown开发的机器人BabyTartanian8,它赢得了与人工智能促进协会年会一起举行的2016年年度计算机扑克比赛。
婴儿Tartanian8在比赛中以12(加/减10)MBB/手和24(加/减20)MBB/手击败了接下来的两个最强的AIS,而Libratus则以63(加/减28)MBB/手击败了婴儿Tartanian8。 作者指出,Deep Stack还没有对其他AIS进行测试。
Sandholm和Brown总结说:“我们开发的技术在很大程度上是独立于领域的,因此可以应用于其他战略上不完善的信息交互,包括非娱乐应用。” 由于隐藏的信息在现实世界的战略互动中普遍存在,我们认为,在Libratus中引入的模式将对人工智能的未来增长和广泛应用至关重要。
该技术已完全授权给战略机器公司,这是一家由Sandholm创建的公司,将战略推理技术应用于许多不同的应用。
布朗和桑德霍尔姆关于嵌套子游戏解决的论文最近在神经信息处理系统(NIPS2017)会议上获得了最佳论文奖。 在2017年高性能计算、网络、存储和分析国际会议(SC17)上,Libratus获得了HPCwire阅读器最佳使用人工智能的选择奖。