
德州扑克在中国的未来走向成谜,命运究竟何去何从?
2026年1月10日
为啥投资圈的人这么喜欢玩德州扑克?
2026年1月10日作者系理论物理博士,人工智能专家。新浪扑克学院特邀讲师
Sunday, 31 December 2017

余小鲁博士(右)在新浪总部大厦接受专访
正如谷歌对围棋AI展开研究那般,卡内基梅隆大学针对德州扑克AI予以研究,同样是“志不在此” ,鉴于德州扑克之中存有许多与社会生活相类似的普遍难题,所以此项研究具备根本重要的意义 。

德州扑克AI的意义
德州扑克AI的里程碑——Libratus(冷扑)
Libratus是“balanced”的拉丁文,其意思为均衡,大陆翻译为冷扑,这个翻译相当妙,读音接近,并且这个AI玩德州扑克非常冷,是冷血的极点,后续再详细解释,balanced是德州扑克网络革命这十年里最热的一个概念,它根源于数学的博弈论,我们在此不使用数学公式,尝试以大白话先解说这个念,。

李开复等讲解德扑人机对抗
玩剪刀石头布的游戏,要怎样玩才能够保持不败呢,比如说我以随机的方式百分五十出剪刀,百分之三十出石头,百分之二十出布,那你要怎样打败我,那随机性并非难以理解,比如我们能够看自己的手表,要是秒针超过六点就出剪刀,要是不到二点二十分就出布,其余情况就出石头;稍微思考一会儿就会知道,你应当永远去出石头,也就是指一百次里按照平均情况你会赢五十次,平手三十次,输二十次那么统计上,我就被你打败了,直观来讲我的游戏策略并非是均衡的 。于是呢,我略微做些改进,我随机地拿出三分之一的情况出剪刀,拿出三分之一的情形出石头,拿出三分之一的状况出布,这样的一种策略是没办法被打败的,能够称作博弈论最优解(GTO)。再仔细思索一番,这个策略尽管不可以被打败,然而对手不管采用什么策略我的结果都是一样的,不光不会获胜而且也不会失利,也就是说我的策略致使能够不再去关心对手使用何种策略(indifference threshold)。德州扑克的游戏结构相较于剪刀石头布要复杂好多好多,但核心概念是相似的。冷扑具备能冷且能获胜的特性,是因为寻找到了在每一种局面之下,能够采取某 种特定策略,进而使得不再需要关心对手究竟采用何种策略,简言之,便是有效避开了德州扑克里猜来猜去的怪区。其最大的不同之处在于,剪刀石头布博弈论最优解的期望值为零。而在德州扑克里,诸多局面下最优解的期望值是正数,这正是冷扑打败人类牌手的数学基本出发点。

冷扑的三大模块 冷扑的策略
Libratus(冷扑)和人类牌手的比较

冷扑相较于人类牌手的优势
冷扑相较于人类牌手的劣势

冷扑与阿尔法围棋对比
德州扑克的理论
人们所说的理论,从抽象角度来讲,是指人为构建出一套概念框架,在该框架之中开展逻辑演绎用以理解事物。以围棋为例 ,人们人为构建了一个名为“厚势”的概念。人为构建的概念通常存在一定模糊性 ,厚势或许能够先被定义为铁活或者不容易遭受攻击且对中腹具有影响的一些棋子组合。通过进一步的逻辑演绎 ,中国古人形成了一个理论称作“勿近厚势”。对方的厚势不要去靠近 ,就连自己的厚势也不要靠近 ,否则都会影响棋子的效率。粗略看上去,这般的“理论”极具道理,极具说服力,仿若在讲述故事一般,我们将其称作“故事理论”。
这样的故事理论,计算机人工智能并不适用。阿尔法围棋也好,冷扑也罢,用的都不是这种理论。然而,几乎所有的德州扑克培训班、教学视频以及经典技术书籍,传授的却都是这样的故事理论。像转牌时拿到一个作为顶对但是弱踢脚的牌过牌来控制彩池,不跟那种被称作石头的玩家加注等情况。大多数故事理论都具有两面性,即这个故事常常能够反着来讲,致使你没法找到正确决策的方向标点符号。假设你的对手才刚刚输掉了两个大彩池,此刻你打算现在就给他来一个幅度较大的诈唬(bluff),你所依据的理论是这样的一则故事:他才刚输掉两个大彩池,当下有点手软,以至于不敢拿着稍微边缘一点的牌去跟注,所以你觉得自己的诈唬是可行的。然而这个故事理论也能够这样阐述:他才刚输掉两个大彩池德信竞技,现在情绪有点上头(tilting),千万不要去诈唬他。

冷扑对战中国牌手
就此而言,人工智能冷扑所运用的到底是哪一种理论?先前的剪刀石头布游戏已然能够瞧出一些头绪,然而,真实且完整的无限注德州扑克实在太过繁杂,所以,我们能够借助一个迷你版的德州扑克来予以替代。当下,仅有两个玩家,小盲注为0.5个筹码,大盲注是1个筹码,并且,每个玩家桌子上总共存有十个筹码。小盲注率先做出决策,此游戏设定仅给予他两个选择:要么全下,要么弃牌。那么,冷扑的理论究竟是什么样的?抑或,人工智能所需求解的究竟是什么事物?
第一,冷扑求解出来小盲注持什么牌需要弃牌,什么牌需要全下。
第二,冷扑求解出来大盲注持什么牌需要弃牌,什么牌需要跟注。
其一,以上第一点叫做这个游戏的策略,其二,以上第二点称作这个游戏的策略,其三,必须证实这个策略为何是最优解,其四,这个策略不能变动。
第四,此游戏到底是对小盲注有益,还是对于大盲注有益?这般利益怎样去量化,通过精确计算能够获取到吗?
人们能够看见,哪怕是这般一个迷你型的德州扑克,相较于真实的德州扑克不知简化了多少,若运用这种理论精准求解,依旧极为复杂。这便是我们众人学习德州扑克时,学的皆是“故事理论”,而非诸如冷扑这般的“数学理论”。阿尔法围棋新近推出了一款教学工具,对棋界而言可谓是功德无量 。但阿尔法的“教学”并非是一个“故事理论”,当代职业顶尖棋手若要成为阿尔法的学生,就得从阿尔法“教学”所给出的棋路里,自行重新给自身讲一个故事给自己听,构造出一个全新的故事理论,如此方能汲取到阿尔法围棋的精髓。冷扑的牌路给予我们的启示与之相仿,每一位顶尖牌手,皆只能成为一名编剧,将冷扑的打法讲述成一个自身能够领会的故事,在其中持续试错并深入学习。
德州扑克的浩瀚版图
在我们平常所说的德州扑克范畴里,所指的皆是无限注德州扑克。此言印证了德扑教父道尔布兰森在其名著《超级系统》里所说的话,即无限注德州扑克是扑克中的凯迪拉克。

作者在MTT比赛现场
无限注德州扑克具备的比赛形式极为繁多,当下较为主流那种智力竞技的模式明确存在两种,分别是即时锦标赛,也就是SNG,和常规锦标赛,也即MTT。每张桌子所容纳的人数规格可是不同的,有2人这种,还有6人这种,另外有9人的,10 人的多种其他规格都有。并且,还把盲注抽水现象对应增长情形或是快慢,总彩池的具体大小,奖金分布所呈现的结构,这些个诸多因素的组合情况考虑进去,能够这么说,那德州扑克常见的比赛形式数量竟然不少于百种呀。然而冷扑在其中仅仅擅长里面唯一的一种游戏结构,这种结构就是单挑,单挑又被叫做一对一,还被称作heads up形式的无限注德州扑克。即便存在超级计算资源,那以博弈论为基础的算法,要推向上述所讲的各类比赛形式,仍有极为漫长的路程要前行。冷扑针对德州扑克的冲击力度,远远比不上Alpha Go针对围棋的冲击力度,其根本缘由就在于这个。
补注:

冷扑之父
来自卡内基梅隆的Noam Brown博士,他还是冷扑的主要创造者当中的一员,其觉得在未来两年里下一代的AI存在着战胜六人桌的可能性,而作者对此持有怀疑的态度,那让我们一道拭目以待吧。
对于那些有深入了解冷扑算法兴趣的读者而言,供参考的、于2017年12月17日在美国《科学》上发表的论文是Superhuman AI for heads-up no-limit poker:Libratus beats top professionals。有兴趣深入了解冷扑算法的读者,可参考此论文。


