
德州扑克战胜人类的AI用啥算法?Facebook田渊栋为你解析
2026年1月13日
CodeClash 通过多轮编程竞赛对大型语言模型进行基准测试
2026年1月13日
AI 赌神完成了超进化!
两年之前的 Libratus,历经 20 天时间,战胜了 4 位顶级的德州扑克选手,不过其只能进行 1v1 的对抗。如今全新出炉的赌神 Pluribus,终究赢得了突破,在多人局中称霸:
在六人无限注德扑比赛上击败所有人类顶尖玩家。

Pluribus结束了扑克AI只能一对一的状况,成为了多人复杂游戏的里程碑,多人德扑的难度相较于围棋,相较于1v1德扑,要高得多。
并且,Pluribus不光是赢了游戏,而且赢得干净利落、清清爽爽,每一手仅仅是以20秒度过,相较于人类职业选手而言速度快了一倍。它对于算力所提出的要求,又在比进行围棋游戏的AlphaGo低出许多的值域范围,运行之时仅仅需要两个CPU 。
顶尖人类高手一共有15位,他们败在了新晋AI赌神的手下。官方表明,倘若每个筹码是一美元,Pluribus平均每 HAND 牌就能赢5美元,每小时可以赢1000美元。
这里面有那么一位,是扑克领域的传奇人物,是世界扑克大赛(WSOP)的冠军人士,名为克里斯·弗格森 。

他的 ” 获奖感言 ” 如下:
Pluribus是个极其难应对的对手,随便哪一手牌都不容易稳稳压制它。
他着实特别擅长于在最终那张手牌上去进行小额的注押,这种注押呈现出的是感觉自身所拥有的牌要比对手的牌更为强劲有力,随后才押下赌注用以榨尽对手,而且他在此方面极为擅长,擅长去凭借一手出色的牌来全力榨取其中所蕴含的价值 。
另外一位职业选手 Jason Les 说:
它诈唬的技能像怪兽一样,比任何人类的诈唬都高效。
两位身为AI赌神的爸爸之人,亦是Libratus的爸爸,其来自Facebook以及CMU,他们携着这项有着卓越成就的新成果,登上了Science 。
那么,先来欣赏一下比赛现场,人类是如何被按在地上摩擦的:
在那场比赛里头,Pluribus开始拿到的是同花方块的5以及6,在第一轮下注完结的时候,发出了三张公共牌,分别是黑桃4、方块2还有方块10,之后呢,还有3名别的选手在现场,其中两位选择了check,一位进行了加注。
即便在这个时候,Pluribus 的牌面并非是很大的那种情况,然而它却是直接进行了全押,没错,是直接全押了。 。
最后,别的几位出色的选手都接连放弃手中的牌离开了,不得不讲一场靠吓唬人的玩法玩得相当厉害啦。
难在哪?
多年来扑克一直是 AI 领域难以解决的重大挑战。
基于扑克存有隐藏信息这一情况,你对对手所持有之牌并不知晓。要想赢得比赛,就需要进行诈唬,而这需要诸多在国际象棋、围棋等之类游戏里不会涉及到的技能。
这是 AI 打牌的一个巨大障碍。而另一个障碍是多人。
在以前的时候,AI所进行的游戏,存在两种情况,一种情况是人员构成是两人之间的,另一种情况是团队构成是两队之间的,并且都是那种零和博弈的类型,也就是一方取得胜利而另一方遭遇失败,像跳棋这个游戏是这样,国际象棋这个游戏也是这样,围棋这个游戏同样是这样,星际2这个游戏依旧是这样,就连DOTA2这个游戏也是如此。

深入思维的阿尔法星,在星际争霸2里,仅用五分钟就战胜了人类。
于这些游戏之中,AI均颇为成功,缘由在于其能够构建一种纳什平衡(Nash Equilibrium)的策略,此策略能够挑选出一连串相关动作,不论对手所采取的行为是什么,自身最少不会面临失败的局面。对手的情况亦是如此 。
不过,纳什平衡并不是总能找到:
首先,要是通过观察对手的弱点去获取纳什平衡,比如说对手经常出剪刀,那么 AI 能一直出石头;然而呢,对手也能够按照 AI 的选择来调节自身对策,这种办法所需的数据量也是比较多的。
其次,假设存在多人参与的游戏情形,哪怕每个参与游戏的玩家都成功寻找到了属于自身的纳什平衡状态,然而将这些各自的纳什平衡状态加总起来,其结果也未必就一定是纳什平衡状态,这是因为该游戏并非属于零和博弈这种类型:
有这样一个例子,是Lemonade Stand(柠檬水摊子)游戏,在这个游戏里,每个玩家都得费尽心思尽量去拉开与其他玩家之间的距离,而该游戏的纳什平衡状态是所有玩家彼此之间的距离都保持相等,然而呢,每个玩家都会依据自身情况去寻觅一个属于自己的平衡点进而展开计算,这么一来,大家最终算出来的联合策略就极有可能不会是纳什平衡了。

所以,Pluribus并非采用博弈论的思路,去寻觅不会输的平衡策略,而是将打败人类立为目标 。
决策之道
仅是依靠那位知名的前辈Libratus所采用的反事实遗憾最小化(CFR)算法,是没办法达成这一点的,绝不行。
Libratus对抗游戏隐藏信息所采用的策略,是使AI产生左右互搏的情况,也就是让其自己跟自己进行对战,运用随机策略,在每一局结束之后,查看游戏里究竟有哪几手会让人产生后悔之感,随后再去尝试不一样的战略,在决策点那里进行复盘。
在双人对战当中,这样的策略效果拔群。
然而,于不完美信息博弈里,每增添一名玩家,游戏的复杂程度便会呈指数式增长,现有的技术不能够应对 。
Pluribus采用了迭代的蒙特卡洛CFR,也就是MCCFR,其核心思想同样为自我学习,是左右手互搏的那种,并且不用任何人类或者前辈AI的游戏数据当作输入。
可是它有着特别的地方,这特别的地方在于它制订的是一项蓝图策略,在跟对手竞赛的进程当中,Pluribus同样会依照实际情形及时搜寻更优策略用以改良蓝图策略。
也就是说,它的行动可以分成两个阶段。
第一阶段:蓝图策略
无限注德州扑克里,存在着数量众多的决策点,并非是把行动全考虑进去对每个决策点都单独进行推理,为了能够降低游戏所具有的复杂性,首先要做的事情是进行抽象,也就是要消除掉一些存在着值得商榷情况的行动。

Pluribus 使用了两种抽象:动作抽象和信息抽象。
动作抽象致使 AI 需考量的各异动作数量有所减少。在无限注德州扑克里,一般准许于 100 美元至 10000 美元的范围之内开展全价投注,而投注 200 美元跟投注 201 美元之间的差别微乎其微。
因此,Pluribus 在任意给定的决策点仅仅需要去考量几种不一样的下注大小。它所考量的投注数量于 1 至 14 之间变动,究竟是多少要依据实际情形而定。
倘若对手投入的金额是150美元,然而在Pluribus进行训练的期间内,其投入的金额仅仅是100美元或者200美元,那么这种情形下该采取怎样的应对举措呢?
这时,Pluribus 会依赖下文将提到的搜索算法。
信息抽象乃是将策略上带有相似性的那些牌局放置到一起来,并且针对它们实施相同的处理,这如此搞之下会让游戏的复杂程度大幅度地降低,然而呢也有可能把一些在超人类表现里显得极其重要的微妙不一样给消除掉。
故而,于跟人类开展实际竞赛之际,Pluribus 单单凭借信息抽象去推测未来下注轮次的情形,并非运用其来切实实施下注。与此同时,信息抽象同样适用于自我博弈。
进而,蓝图策略里的关键部分,便是那不断Iterate的蒙特卡洛反事实遗憾最小化算法啥MCCFR。于算法的每一回Iterate之时,MCCFR会把一名玩家确定为“遍历者”,其当下的策略在Iterate之际予以更新。
迭代开始之际,MCCFR 依据所有玩家当下策别随机地模拟出一手牌。这一手牌成局之后,算法便着手 review 遍历者采取的每一项决策,并且经由择取其他可行操作去评定这一手牌成效之优劣。随后,AI 会对打出各异手牌后可能作出的每一个假想决策的长处予以评估。
视频播放器
00:00
00:37
遍历者在选择了一手牌之后所获得的收获,和遍历者在迭代期间的期望收获之间存在的差异,将会被增添到行动的“后悔点”(反事实遗憾)里面。
迭代结束之际,遍历者的那种策略,将会得到更新,在此之后呢,它选择更高反事实遗憾动作的,那个概率,就会变得更高 。
第二阶段:深度限制搜索
无线注德州扑克存在规模,无线注德州扑克具备复杂性,整个游戏的蓝图策略给出的决策会变得比较模糊,是这样的情况 。
实则,Pluribus仅于首轮下注之际,依预先制定好的蓝图去开展游戏,于首轮之后——甚或是首轮过程中,要是对手所择赌注的大小,与蓝图动作抽象里的大小全然迥异——Pluribus会展开实时搜索,拟定更精细之策略。
蒙特卡洛树搜索,双层搜索,alpha-beta修剪搜索,这些在完美信息游戏里表现优异的实时搜索,到了德州扑克这儿都会失败,原因在于它们对对手转移策略的能力不予考虑。
Pluribus所采用的方式为,清晰地认定全部玩家均有能够选取到处于子游戏叶子节点以外的各异策略。
进行下面的游戏时,对于算法来说,假设在玩家到达叶子结点时,每个玩家能够施行四种不同的策略,这四种不同的策略里,有预先计算的蓝图策略,有修改后偏向于弃牌一方的蓝图策略,有修改后偏向于跟注一方的蓝图策略,还有修改后偏向于加注一方的蓝图策略 ,对吧?

这样的搜索方式,能够寻觅到一种更为平衡的策略,进而产生更强的整体表现。
要知道,还有一个大挑战存在,那情形是在德州扑克这类游戏里,玩家所采取的策略,有时候是取决于对手究竟怎样去看待她或者他玩游戏的方式的。
为应对此状况,Pluribus依据策略追踪每一手牌达成当前情形的概率,不管Pluribus实际持有哪一桩手牌,它总会优先将每一手牌的动作计算出来,一旦把所有的平衡策略给计算出来了,它就会针对它实际持有的手牌实施一个动作。

颇为让人惊叹的是,Pluribus的训练成本极为低廉,研究者仅仅于64核的服务器之上运行了8天,便成功训练出了Pluribus的蓝图策略,所需的内存空间小于512GB,并且还无需使用GPU。
也就是换一种说法来讲,Pluribus的训练所需费用竟然都没有达到150美元的额度!
运行游戏之际,Pluribus 仅仅只需在 2 个 CPU 之上运行就行,所使用的内存不到 128GB 。
与之相较,于2016年时,AlphaGo与李世石对阵,当时运用了1920块CPU,还使用了280个GPU来进行实时搜索。
于6人参与的牌局里面,Pluribus平均在每一局个别的回合当中,仅仅只需20秒的时长,此速度相较于顶尖人类选手而言,还要快上一倍。
如此策略、如此小成本、如此速度,成绩会如何?
全面超越人类职业高手
研究人员找来一群德扑界顶尖高手,目的是评估Pluribus的实力,其中包括2000年世界扑克锦标赛冠军Chris “Jesus” Ferguson,还有2012年世界锦标赛冠军Greg Merson,以及四届世界扑克巡回赛锦标赛冠军Darren Elias等等 。
这些处于顶尖水平的高手,每一个都于专业性质的德州扑克比赛里,赢得了数目超过100万美元的奖金,其中大多数赢得的奖金都超过了1000万美元,。
于具体的 测试时 ,那研究者对此有一种设计 ,设计出了两种牌局 。其中一种牌局是 ,有 5 个人类以及一个 AI ;还有另一种牌局呢 ,是 5 个 AI 和一个人类参与 。并且 ,在每一手牌刚开始计时的时候 ,筹码的数量为 10000 个 ,小盲的数值定为 50 ,大盲的数值设定为 100 。

在诸多的人机大战当中,常常会出现这般一种情形,AI在最初的时候展现得挺好,然而随着人类玩家察觉到它的不足之处,它就变得相当愚笨。
此次进行测试,是要全方位对Pluribus的能力予以评估,该测试持续了十几天时间,打出了几万手牌。这样做的目的在于,能让人类高手拥有充分的时间去契合AI的策略,进而去寻觅AI的弱点。
除此以外,虽说德扑是一种技巧性颇为强的小游戏,然而运气亦是其中极为重要的起到重大作用的组成部分。针对于那些处在顶尖水平的德扑职业从事人员而言,仅仅是由于其运气欠佳,在一万次手牌局当中出现输钱的状况是相当常见的。
有研究者宣称,为了将运气给比赛产生的影响进行降低,他们于一个版本里采用了“AIVAT”算法,在确保样本不存在偏差的情形下,依靠每种情况的基线估计值去减小方差。
例如,要是AI所得到的是一组极为厉害的牌,那么AIVAT会从它赢取的钱的总数之中减掉一个基线估计数值,以此来消除运气所产生的成分。
5 个人类和一个 AI
这种牌局一共打了 12 天,玩了 1000 手。
每一天,都会于众多高手中挑选出五名去参与。依据他们各自的表现,会给予他们5万美元这笔奖金,借此激励他们展现出最佳水准。
在使用了AIVAT之后,Pluribus的赢率被估计为大概每100手牌有5个大盲注(5 bb/100) ,处于人类顶尖高手之间进行的对决里,这属于非常不错的成绩(p值是0.021) 。

要是每个筹码为一美元,Pluribus平均每手能够赢五美元,并且每小时可以赚取一千美元。这样的一项战绩,已然超越了职业选手于同职业选手以及业余选手的混合比赛当中的获胜比率。
“Pluribus乃是个极难应对的敌手,”Ferguson于那实验告终之后如是讲道。“不论借助何种办法,皆很难全然掌控他。并且他对在河牌(即最后那张牌)阶段下小额赌注之事相当擅长。他还极为善于凭借自身的佳作牌去谋取更多的价值。”。
5 个 AI 和一个人类
参与这一牌局的是三位顶尖高手中的顶尖高手。
它们分别是,2000年世界扑克锦标赛冠军Chris “Jesus” Ferguson,四届世界扑克巡回赛锦标赛冠军Darren Elias,还包括Linus Loeliger,在六人无限注德扑里,他被公认为世界第一 。
他们当中的每一个人,都跟5个Pluribus进行了5000手牌的游戏。Pluribus不会依据对手去对自身策略作出调整,因而不会出现AI相互勾结的情形。
具体的情形为,每一百手牌之中,人类选手出现了损失,损失的数量是二点三个大盲注,即二点三个大盲注每一百手牌(二点三个大盲注除以一百手牌,也就是二点三个大盲注每一百手背注) 。
当中德信竞技,Elias是每100手4个大盲注,也就是4.0 bb/100,其标准误差是2.2 bb/100 ,Ferguson是每100手2.5个大盲注,即2.5bb/100,其标准误差为2.0 bb/100 ,Loeliger是每100手0.5个大盲注,也就是0.5bb/100,其标准误差为1.0 bb/100 。
以下这张图,展现了Pluribus在一万手刹牌实验里针对职业扑克玩家的平均赢率,直线是实际结果,,虚线是标准偏差 。

按照它的说法,其主要的好处在于施展混合策略的本事,”Elias讲。这点和人类尝试去做的行径是相同的。对人类而言,这是做的问题——用全然随机的方式去做,而且始终保持一致大多数人难以做到。
Pluribus 的策略,是在完全没有任何人类数据的情形下,通过自我博弈来决定的,所以它也为探寻多玩家无限制的德扑的最佳玩法,提供了一个外部视角。
Pluribus证实了,追进此行动(追进大盲注,而非弃牌或者加注),对人类传统智慧而言,属于为任何玩家所呈现出的次优情况,这一点是成立的。
有小盲注玩家是例外,他们在底池中已有一半大盲注,只需投入其他玩家一半资金就能行,是这样的。
即便 Pluribus 在刚开始借助自我博弈之际试过跟进策略,然而随着自我博弈持续开展下去,它渐渐舍弃了这一策 略。
然而,Pluribus针对一个被人类普遍认定的策略持有不一样的看法:也就是说,不在投注时采取行动(在一轮有注行动结束之际续上赌注,开启新一轮有注行动)属于失误之举;将其跟顶尖人类高明玩家加以比的话,Pluribus施行该路径的频度更高。
在于和扑克机器人的比赛里头,见到它所选定的某些策略十分匪夷所思,还让人产生强烈的着迷感 ,“非常令人难以置信,也令人着迷”Gagliano这样讲。 有几个策略简直是人类连想都没法想得到的,特别是跟赌注大小存在关联的那些 。
下面的这张图,所展现的是,Pluribus与职业选手比赛之际的筹码数量,其中,实线呈现的是实际出现的结果,虚线呈现的是标准偏差 。

应予留意的是,Pluribus属于一种用于研究人工智能的工具,研究者宣称,挑选扑克仅仅是为了评定在不完全知晓信息之处境里,人工智能于多智能体相互作用时与人类最高水准之差距,。
也就说,他们的征途不仅仅限于德扑,而是星辰大海。
毕竟,现实的世界是极为复杂的,并非仅仅存在两方的对战情况,不是那种非输即赢的简单模式。朝着走向通用的人工智能发展方向,学习多人进行的复杂游戏,这是极为重要的一步。
自然,针对“Libratus承接军用订单”此事件的回应而言,Facebook表明该项研究不会被用于军事方面。


