
探索免费扑克工具,用德州扑克数据软件提升游戏水平
2026年1月7日
赌神原型陈强尼:曾一晚输百万,玩德州扑克爱在桌上放水果
2026年1月7日作者系理论物理博士,人工智能专家。新浪扑克学院特邀讲师
Sunday, 31 December 2017

余小鲁博士(右)在新浪总部大厦接受专访
如同谷歌对围棋AI进行研究一般,卡内基梅隆大学针对德州扑克AI展开研究,同样是“并非着眼于此”。由于在德州扑克里存有诸多与社会生活相类似的普遍难题,所以该项研究具备根本重要的意义。

德州扑克AI的意义
德州扑克AI的里程碑——Libratus(冷扑)
Libratus是“balanced”的拉丁文,其意思是均衡,大陆将其翻译为冷扑,这个翻译相当妙,读音相近而且这个AI玩德州扑克特别冷,是冷血到极致的那种冷,下文会再详细解说。balanced是德州扑克网络革命这十年间最热的一个概念,它根源于数学的博弈论。我们在这里不用数学公式,打算用大白话先对这个概念进行解说。

李开复等讲解德扑人机对抗
玩剪刀石头布的游戏,要怎样玩才能够保持不败呢,比如说我以随机的方式,百分之五十的概率出剪刀,百分之三十的概率出石头,百分之二十的概率出布,你要通过何种方式打败我呢,随机性并非难以理解,比如我们能够看自己的手表,当秒针超过六点的时候出剪刀,当秒针不到二点二分时出布,其余情况出石头,稍微思考一会儿就能够明白,你应该始终出石头,也就是说一百次中你会平均赢五十次,出现平手三十次,输了二十次,从统计角度讲,我就被你打败了,从直观层面讲我的游戏策略并非是均衡的。那么,我进行稍加改进,我随机地以三分之一的概率出剪刀,以三分之一的概率出石头,以三分之一的概率出布,这个策略是不能够被打败的,能够被称作博弈论最优解(GTO)。再对其进行仔细思考,这个策略尽管不可以被打败,然而对手不论运用什么策略我所得到的结果都是一样的,不会取得胜利也不会遭遇失败,也就是说我的策略致使可以不再去关心对手采用何种策略(indifference threshold)。德州扑克的游戏结构相较于剪刀石头布要复杂许多,可是核心概念是相似的。冷扑之所以 cold,能 win,是因为找到了每一种 situation 下可采取特定 strategy 从而能不 care 对手采取何种 strategy,简单讲,就是有效避开了德州扑克里猜来猜去的 strange area。最大差别在于,剪刀石头布的博弈论 Optimal solution 的期望值是 zero。德州扑克里很多 situation 下最优解的期望值是正数,这就是冷扑打败人类牌手的数学基本 starting point。

冷扑的三大模块 冷扑的策略
Libratus(冷扑)和人类牌手的比较

冷扑相较于人类牌手的优势
冷扑相较于人类牌手的劣势

冷扑与阿尔法围棋对比
德州扑克的理论
如何去界定理论呢?从抽象层面来讲,那便是凭借人力去构建起一套概念框架,于这个框架范围之内展开逻辑演绎以此来领会事物。拿围棋作为例子来说,经由人为之手构造出了一个被称作“厚势”的概念。由人力构造而成的概念通常是带有一定模糊度的,厚势或许能够先被定义成那种似铁般稳固存活或者不容易遭受攻击并且对中腹存在影响的一些棋子组合。再做进一步的逻辑演绎,中国古代的人缔造出了一种理论名为“勿近厚势”。对方所拥有的厚势不要去趋近,甚至就连自身所具备的厚势也不要去靠近,不然的话都会对棋子的效率产生影响。大约粗略瞧去,这般的“理论”颇具道理,极具说服力,恰似讲述故事那般,我们将其称作“故事理论”。
针对计算机人工智能而言,这样的故事理论并不适用。阿尔法围棋是如此,冷铺也是如此,它们均未运用这种理论。然而,几乎所有的德州扑克培训班、相关教学视频以及经典技术书籍,所传授的恰恰都是这样的故事理论。举例来说,在转牌阶段拿着一个顶对弱踢脚而选择过牌以控制彩池的做法,不跟被唤作是石头之人的加注等情况都是如此。大多数的故事理论具备两面性,也就是说这个故事常常能够倒过来讲述,使得你没法从中挑选出正确的决策。举例来说,倘若你的对手才刚输掉俩大彩池,而当下你打算给他来上一个大的诈唬举措,也就是 bluff,你所秉持的理论依据乃是类似这样的一个故事,即他才刚输掉两个大彩池,此刻有点手发软的情况出现,导致不敢拿着边缘牌来跟注,因此你觉得自己的诈唬之举是可行的。然而这个故事理论还能够这么去讲述,表示他才刚输掉两个大彩池德信竞技,当下有点上头了,即成为 tilting 的状态,所以千万别去诈唬他。

冷扑对战中国牌手
人工智能冷扑所运用的到底是哪样的理论呢,前面的剪刀石头布游戏已然能够从中看出些许迹象,不过真实且完整的无限注德州扑克实在太过繁杂,我们能够动用一个迷你版的德州扑克予以替代,当下仅有两个玩家,小盲注为0.5个筹码,大盲注是1个筹码,每个玩家在桌子上总共拥有十个筹码,小盲注率先做出决定,此游戏设定仅给予他两个选项,即全下或者弃牌,那么冷扑的理论是啥呢,抑或是人工智能所要求解的是什么东西呢 ?
第一,冷扑求解出来小盲注持什么牌需要弃牌,什么牌需要全下。
第二,冷扑求解出来大盲注持什么牌需要弃牌,什么牌需要跟注。
第三,将以上第一点与第二点,称作这个游戏的计谋,一定要证实这个计谋缘何是最理想解答,不可有变动。
第四,究竟是这个游戏对小盲注具备有利性,还是对大盲注存在有利性呢?这个利益要怎样进行量化,能通过精确计算而获取到呢?
大家能够瞧见,哪怕是这般一个迷你型的德州扑克,其可比真实的德州扑克简化了好多好多,然而要运用这种理论精准求解,依旧极为复杂。这便是我们众人学习德州扑克时,学的皆为“故事理论”,而非像冷扑这般的“数学理论”。阿尔法围棋最新推出了一款教学工具,这对棋界而言可谓是功德无量 。但阿尔法的“教学”并非一个“故事理论”,当代职业顶尖棋手若要成为阿尔法的学生,就得从阿尔法“教学”所给出的棋路里,自行重新给自身讲一个故事,进而形成一个全新的故事理论,如此才能够吸收到阿尔法围棋的精髓。冷扑的牌路带来的启示与之相类似,每一位顶尖牌手,都只能成为一名编剧,将冷扑的打法讲成一个自身能够理解的故事,在其中不断进行试错以及深造。
德州扑克的浩瀚版图
我们平常所说的德州扑克,所指的皆是无限注德州扑克,这印证了德扑教父道尔 布兰森在其名著《超级系统》里所说的话,即无限注德州扑克是扑克中的凯迪拉克 。

作者在MTT比赛现场
无限注德州扑克的比赛形式极为繁杂,当下存有两种较为主流的智力竞技模式,分别便是即时锦标赛(SNG)与常规锦标赛(MTT)。每一张桌子的人数存在2人、6人、9人、10人等多种格式。再加之盲注抽水(ante)增长速度的快慢,总彩池规模的大小,奖金分布的结构,众多因素相互组合,可以讲德州扑克常见的比赛形式不少于百种。而冷扑仅擅长其中唯一的一种游戏结构,那便是单挑(也叫作一对一,heads up)形式的无限注德州扑克。就算存在超级计算资源,其依据博弈论的算法,要扩展至上述提及的诸多比赛形式,仍有极长的路需走。冷扑对于德州扑克的冲击效果,远远比不上Alpha Go对于围棋的冲击效果,其根本缘由就在于此 。
补注:

冷扑之父
卡内基梅隆的Noam Brown博士 ,他是冷扑主要创造者之一 ,他觉得未来两年下一代AI有战胜六人桌的可能性 ,作者对此表示怀疑了 ,那咱们就一同耐着性子看后续究竟如何吧 。
对于那些有着想要深入去了解冷扑算法兴趣的读者而言,能够去参考在2017年12月17日于美国的《科学》之上所发表的论文Superhuman AI for heads-up no-limit poker:Libratus beats top professionals(《单挑无限额德州扑克的超人AI:冷扑大师击败顶尖职业选手》) 。


