4人玩扑克牌居然有11种玩法,你知道几种?
2026年1月9日
从零到精通:德州扑克玩家的心路历程与策略分析
2026年1月9日作者系理论物理博士,人工智能专家。新浪扑克学院特邀讲师
Sunday, 31 December 2017
和谷歌对围棋AI展开研究的情况相同,卡内基梅隆大学针对德州扑克AI实施研究,同样是“并非着眼于此”。鉴于德州扑克里存有诸多与社会生活相类似的普遍难题,所以此项研究具备根本重要的意义 。
德州扑克AI的里程碑——Libratus(冷扑)
为“balanced”的拉丁文有着“Libratus”,其意思是均衡,大陆那边将其翻译为冷扑,这个翻译相当巧妙,无论是在读音上接近,并且这个AI玩起德州扑克态度极为冷淡,将冷血展现到了极致,关于这点下文会详细解释,“balanced”是德州扑克网络革命这十年间热度最高的其中一个概念,它源起于数学领域的博弈论,我们在这里不去运用数学公式,尝试着用通俗易懂的话要先阐释这个概念 。
剪刀石头布这种游戏,要怎样玩才可以保持不会失败呢,比如说我按照随机的方式,百分之五十的概率出剪刀,百分之三十的概率出石头,百分之二十的概率出布,你要如何战胜我呢,随机性并非难以理解,比如我们能够看自己的手表,针超过六分数就出剪刀,不到二点二分数就出布,其余情况就出石头,稍微思考一会儿就能清楚,你应该一直出石头,也就是说一百次里你平均会赢五十次,平局三十次,输二十次,从统计角度讲,我就被你战胜了,直观来讲我的游戏策略并非均衡的 。那么,我做出稍微改进,我随机地,在三分之一的情况下出剪刀,在三分之一的情况下出石头,且在三分之一的情况下出布,这个策略是不可以被打败的,能够被称作博弈论最优解(GTO)。再仔细思考一下,这个策略尽管不可以被打败,不过对手不管采用什么策略,我的结果都是一样的,不会取得胜利也不会遭遇失利,也就是说我的策略致使能够不再在意对手运用何种策略(indifference threshold)。德州扑克的游戏结构比剪刀石头布复杂了许多,然而核心概念是相似类似的。冷扑具备能冷以及能获胜的特性,原因在于寻得了每一种情形下能采取特定策略,继而可不关注对手采用何种策略,简单来讲,就是有效避开了德州扑克里猜来猜去的怪区。最大不同之处在于,剪刀石头布博弈论最优解的期望值为零。德州扑克在很多局面下最优解的期望值是正数,这便是冷扑打败人类牌手的数学基本出发点。
Libratus(冷扑)和人类牌手的比较
德州扑克的理论
什么是理论呢?从抽象角度讲,是人为去构建出一整套概念框架,在该框架之中开展逻辑演绎以此来理解事物。拿围棋举个例子,我们人为塑造了一个称作“厚势”的概念。人为构建的概念常常存在一定模糊性,厚势或许能够先被定义为铁定成活或者不容易遭受攻击并且对中腹有影响的一些棋子组合。经过进一步的逻辑演绎,中国古代人形成了一个理论叫做“勿近厚势”。对方的厚势不要去靠近,就连自己的厚势也不要去靠近,否则都会影响棋子的效率。这么粗略地瞧一瞧,这般的“理论”极具道理,极具强大的说服力,恰似在讲述故事一般,我们把它称作是“故事理论”。
机器人工智能不适用于这般的故事理论,不管是阿尔法围棋,抑或是冷扑,均未运用这种理论,然而差不多所有的德州扑克培训班、教学视频以及经典技术书籍,讲授的皆是这样的故事理论,举例来说,转牌时拿着一个顶对弱踢脚过牌去控制彩池,别跟石头的加注,诸如此类,大多数故事理论具备两面性,即这个故事常常能够反过来阐释,致使你难以抉择正确的决策。那么比如说,你的对手才刚刚输掉了两个大彩池,而此刻你正打算现在就给他来一个大的诈唬,也就是bluff,你所依据的理论是这样的一个故事,他才刚输掉两个大彩池,当下有点手软,导致不敢持边缘牌去跟注,所以你觉得自己的诈唬是可行的。然而这个故事理论还能够这么去讲述,他刚输掉两个大彩池,现在处于有点上头的状态,也就是tilting,千万不要去诈唬他。
AI冷扑所用的到底是哪种理论呢,前面剪刀石头布游戏能看出些许迹象,只是真实完整的无限加注德州扑克很复杂,我们能用迷你版德州扑克来替换,现在仅有两个玩家,小盲注是0.5个筹码量,大盲注是1个筹码量,每个玩家桌上总共十个筹码,小盲注先做出决策,此游戏设定只给他全下或者弃牌这两个选项,那么冷扑的理论是什么呢,或者说人工智能要解的是什么东西呢 ?
第一,冷扑求解出来小盲注持什么牌需要弃牌,什么牌需要全下。
第二,冷扑求解出来大盲注持什么牌需要弃牌,什么牌需要跟注。
其三,上述的第一点与第二点,二者名为这个游戏的策略,而这策略必须证明确实那般为何是最优解,且不可以有变动。
第四条,此游戏究竟是对小盲注具备益处德信竞技,还是对大盲注存在益处呢?这般的利益怎样去进行量化,通过精准计算从而获取到呢?
大家所能看到的是,哪怕是这般迷你型的德州扑克,相较于真实的德州扑克简化程度难以计数,然而要运用这种理论精准求解,仍旧极为复杂。这便是我们众人学习德州扑克时,学的皆是“故事理论”,而非像冷扑那样的“数学理论”。阿尔法围棋新近推出了一款教学工具,这对棋界而言堪称功德无量 。但阿尔法的“教学”并非是一个“故事理论”,当当代职业顶尖棋手要成为阿尔法的学生时,必须从阿尔法“教学”所给出的棋路里,自己重新编一个讲述给自身听的故事,以此形成一个全新的故事理论,才能够吸收到阿尔法围棋的精髓。冷扑的牌路给予我们的启示与之类似,每一位顶尖牌手,都只能成为一名编剧,将冷扑的打法编成一个自己能够领会的故事,在其中不断进行试错与深造。
德州扑克的浩瀚版图
我们平常所讲的德州扑克,所指的皆是无限注德州扑克,这印证了德扑教父道尔布兰森在其名著《超级系统》里所说的话,即无限注德州扑克是扑克当中的凯迪拉克。
无限注德州扑克的比赛形式极为繁杂多样,当下较为主流的智力竞技模式存在两种,分别是即时锦标赛,也就是SNG,以及常规锦标赛,也就是MTT。每一张桌子的人数存在2人、6人、9人、10人等多种格式。再加之盲注抽水,也就是ante的增长快慢状况,总彩池的大小情形,奖金分布结构情况,多种这般因素的组合,能够讲德州扑克的常见比赛形式不少于百种。而冷扑仅仅擅长其中唯一的一种游戏结构,那便是单挑,又称为一对一,也就是heads up形式的无限注德州扑克。就算存在超级计算资源,那基于博弈论的算法,要将其推广到上述所讲的各种各样比赛形式,还有极为漫长的路程要走。冷扑对德州扑克所产生的冲击力,远远比不上Alpha Go对围棋产生的冲击力,其最根本的原因便在于此。
补注:
卡内基梅隆的Noam Brown博士这个冷扑主要创造者之一,持有未来两年下一代AI有可能战胜六人桌的看法,作者对其表示存疑,让我们一同拭目以待。
有的读者,对深入了解冷扑算法有兴趣,那么,这些读者可以参考这样一篇论文,该论文于2017年12月17日发表在美国的《科学》上,论文题目是Superhuman AI for heads-up no-limit poker: Libratus beats top professionals 。

