
德扑小盲位常规桌策略教学
2026年3月14日潮水正涌,体验德州扑克娱乐别样精彩
2026年3月14日由中科院自动化所兴军亮研究员带领的博弈学习研究组,提出了一款高水平轻量化的两人无限注德州扑克AI程序,它叫AlphaHoldem。它的决策速度,比DeepStack速度提升了超1000倍。和高水平德州扑克选手对抗得出的结果显示,它已经达到了人类专业玩家水平。相关工作,已被AAAI 2022接收。
从人工智能学科开始诞生算起,智能博弈研究便是人工智能技术取得发展创新的肥沃土壤,而且始终都是用以衡量人工智能发展水准的关键评价准则。在2016年的时候,AlphaGo以4:1的比分战胜了围棋世界冠军李世石,这样的一件事情被视作是智能博弈技术实现发展的一个重要标志性事件。和具备完美信息的围棋博弈不一样的是,现实世界那边与之相应的博弈所显示出来的一个突出特点是,由于存在信息不完备的状况从而导致对手处于不确定的状态。这种难题很好地在以德州扑克为代表的大规模不完美信息博弈问题中集中体现了,德州扑克所代表的此类问题是一个平台,一个对深入研究智能博弈理论以及技术而言极为出色的平台。近些年来,在国际范围里,那些环绕德州扑克此类具备大规模且不完美信息特征的博弈问题,于优化求解方面已然获取了显著的进展,由来自加拿大阿尔伯特大学以及美国卡内基梅隆大学的研究者所设计的AI程序DeepStack与Libratus,先后在两人进行的无限注德州扑克当中,都战胜了人类的专业选手,而后,卡内基梅隆大学所设计的AI程序Pluribus ,又在六人进行的无限注德州扑克里,战胜了人类专业选手。
上述具有里程碑意义的德州扑克AI,都依靠一种迭代式的反事实遗憾最小化算法,也就是Counterfactual Regret Minimization,简称CFR算法。该算法在训练进程中,不但要消耗大量的计算资源,而且还需要诸多德州扑克游戏的领域知识。近日,中国科学院自动化研究所,兴军亮研究员所领导的博弈学习研究组,在德州扑克AI方面,取得了重要进展,提出了一种高水平轻量化的两人无限注德州扑克AI程序,名为AlphaHoldem。AlphaHoldem整体上采用一种精心设计的伪孪生网络架构,还将一种改进的深度强化学习算法,与一种新型的自博弈学习算法进行了结合。在不借助任何领域知识的情形下,直接从牌面信息开始,端到端地学习候选动作,进而进行决策。1台装有8块GPU卡的服务器被AlphaHoldem所使用,在历经三天的自博弈学习之后,它战胜了Slumbot以及DeepStack。于每次决策之际,AlphaHoldem所需时间不到3毫秒,相较于DeepStack ,其速度提升幅度超过了1000倍。与此同时,AlphaHoldem同四位高水平德州扑克选手对抗1万局的结果显示,它已然达到了人类专业玩家的水平。
国际上极为通行的扑克游戏是德州扑克,它因最早起始于20世纪初美国德克萨斯州而获此名称。德州扑克的规则是,使用去掉王的一副扑克牌,这副牌共52张。至少2人参与此游戏,至多22人参与。一般参与人数在两人和十人之间。游戏开始之际,首先给每个玩家发两张私有牌当作各自的“底牌”。随后把五张公共牌依次按三张、一张、一张朝上发出。在发出两张私有牌过后,发出三张共有牌,发出第四张公共牌,发出第五张公共牌之后,玩家能够多次进行无限制押注,这四轮押注,分别被称作“翻牌前”,“翻牌”,“转牌”,“河牌”;图1呈现出一场德州扑克游戏流程的完整示意画面;在历经四轮押注以后,要是依旧无法区分胜负究竟花落谁家,游戏便会进入“摊牌”阶段,所有玩家都要亮出各自的底牌,并且与公共牌拼凑组合成五张牌,成牌呈现最大状态的玩家取得胜利;图2给出了德州扑克不同组合的牌型解释以及大小情况。

图 1:两人无限注德州扑克一次游戏过程示意

图 2:德州扑克不同牌型大小说明和比较
德州扑克是极为流行的扑克类游戏,它为研究智能博弈基础理论之时的方法,提供了一个绝佳的试验平台,同时,是一个绝佳的测试平台。首先,德州扑克博弈所涉及的问题,其复杂度相当大,两人进行无限注德州扑克时,决策空间的复杂度超出了 10 的 161 次方;其次,德州扑克博弈的过程,属于典型的回合制动态博弈情形,游戏参与者每一步做出的决策,都依赖于上一步的决策最终结果,并且与此同时会对后面要进行的决策步骤产生影响;另外,德州扑克博弈属于典型的不完美信息博弈,在博弈过程当中,玩家各自手中底牌的信息处于不公开状态,这致使每个玩家所掌握的信息都不完备,玩家在每一步做出决策之际,都得充分去考虑对手的各种有可能出现的情况,由此便涉及到对手行为与心理建模、欺诈与反欺诈等众多问题。与此同时,鉴于德州扑克游戏规则极为简易,并且边界清晰明确,故而格外适宜用作一个虚拟实验环境,以此对博弈的相关基础理论方法以及核心技术算法展开深度探究。
当下,主流德州扑克AI背后的关键思想,是借助反事实遗憾最小化,也就是Counterfactual Regret Minimization,称其为CFR算法,去接近纳什均衡策略。详细来讲,最初会动用抽象技术,也就是Abstraction技术,来压缩德州扑克的状态以及动作空间,借此减小博弈树的规模,之后在缩减后的博弈树上开展CFR算法迭代。这些方法对人类专家知识进行博弈树抽象存在严重依赖,CFR 算法要对博弈树的状态结点持续进行采样遍历以及迭代优化,就算是经过模型缩减后,依旧需要消耗极大的计算和存储资源。举例来说,DeepStack 训练最终 AI的时候,使用了 153 万的 CPU 时以及 1.3 万的 GPU 时,在对局阶段每次 CFR 需要由一个 GPU 进行 1000 次迭代,平均每个动作计算耗时 3 秒。Libratus 在生成初始策略时,耗掉了大于 300 万的 CPU 时,每次做决策得搜索 4 秒以上。如此这般大量的计算以及存储资源的耗费,严重地阻碍了德扑 AI 的进一步研究与发展;与此同时,CFR 框架很难直接延伸到多人德扑环境里,增加玩家数量会致使博弈树规模呈指数增长。另外,博弈树抽象不但需要大量的领域知识,而且还会不可避免地遗失一些对决策起着至关重要作用的信息。

表 1:不同算法的训练测试资源对比
与已有的、基于CFR算法的德州扑克AI不一样,中国科学院自动化研究所博弈学习研究组,借助端到端的深度强化学习算法,研发出一款高水平且轻量型的德州扑克AI程序AlphaHoldem,它的整体架构如图4所示。AlphaHoldem运用Actor-Critic学习框架,其输入是对卡牌与动作进行编码的数据,之后由伪孪生卷积网络来提取特征,即结构相同但参数不共享的那种网络,接着经两个全连接层获取状态的高层特征,最终输出动作概率以及价值估计。AlphaHoldem 获得成功,是因为它采用了一种高效的状态编码,能完整地描述当前以及历史状态信息,还采用了一种基于 Trinal – Clip PPO 损失的深度强化学习算法,使训练过程的稳定性和收敛速度大幅提高,并且采用了一种新型的 Best – K 自博弈方式,能有效地缓解德扑博弈里存在的策略克制问题。

图 4:端到端学习德州扑克 AI 学习框架
德州扑克 AI 中,已有部分受限于 CFR 算法处理能力,需对牌面状态与动作信息压缩,其压缩优劣取决于对德扑领域知识掌握程度,且会难免造成信息损失。AlphaHoldem 则不同,它对整个状态空间进行高效编码,不借助德扑领域知识压缩信息。对于卡牌信息,它将其编码成含多个通道的张量,用以表示私有牌、公共牌等信息。于动作信息而言,AlphaHoldem 同样把它编码成多通道张量,以此去表示各玩家当下以及过往的动作信息。AlphaHoldem 的多维张量状态表示方式,不仅完整地编码了当下和历史的状态信息,并且极其适宜作为卷积神经网络的输入来进行特征的学习。
Trinal – Clip PPO强化学习当中,因为信息并非完美,以及不同对手存在各类“诈唬”欺骗行为,致使德州扑克成为一种结果有着很强烈随机性的游戏,这造成常见的强化学习算法,像PPO等,其训练过程非常不稳定,并且难以收敛。AlphaHoldem 提出了一种新型的 Trinal – Clip PPO 损失,其用于改进深度强化学习过程的稳定性,它通过引入 3 个截断参数,解决了 PPO 算法在优势函数小于零时损失值方差过大的问题,还解决了 “全压” 等动作造成的价值函数难估计的问题。整体上来说,Trinal – clip PPO 损失有效缓解了德扑博弈的强随机性造成的策略训练不稳定问题,进而使 AlphaHoldem 训练得又快又好。
Best – K自博弈训练方法,德扑游戏里不同策略之间有着复杂的克制关系,这致使Naive自博弈方法,或是AlphaGo采用的Best – Win自博弈方法,在德扑游戏中很难收敛。然而运用AlphaStar的群体博弈PBT,神经虚拟自博弈NFSP等方法去训练德扑AI,会耗费比传统CFR算法更多的计算资源。为了能够有效地去平衡训练效率以及模型性能,AlphaHoldem采用了一种新型的Best-K自博弈方法,该方法是在训练过程当中测试历史模型的性能,从中挑选出K个最好的模型,让其与现在的最新模型进行对打,通过这样不停增强学习来提升自身性能。
AlphaHoldem 到底能达到什么水平呢?
我们把AlphaHoldem跟当下处于高水平阶段的德扑AI予以了比较,最终发觉AlphaHoldem均具备显著的优势。在历经 10 万局的对抗之后,AlphaHoldem 平均每一局能赢 Slumbot(作为 2018 年世界计算机扑克大赛 ACPC 冠军,且其如今仍在持续进化)111.56 mbb,这里的 111.56 mbb 是指每 1000 手牌所赢的大盲注数量,同时,它赢 DeepStack(此为课题组运用 120 GPU 卡训练 3 周后复现的版本)的平均每一局数量是 16.91 mbb。与此同时,它能够达成人类专业玩家的水准,借助与4位专业玩家展开1万局的对抗,AlphaHoldem平均每局赢专业玩家10.27 mbb。此外,AlphaHoldem于一台配备1个AMD 2.00GHz CPU(64个核心)、8个NVIDIA TITAN V GPU的服务器上仅仅训练三天,在一个CPU核心下每次决策只需4毫秒,达成了真正的既快且优。

图5,OpenHoldem在线非完全明晰信息交锋对抗平台起始页面。
AlphaHoldem运用了端到端强化学习的架构,极大程度地削减了现有德扑AI所需要的领域知识,以及计算存储资源的耗费,并且达成了人类专业选手的水准。此框架是一个通用的端到端学习架构,我们已在多人无限注德扑方面证实了该框架的适用性,当下正在提高多人模型训练进程的学习性能。我们打算把 AlphaHoldem 背后的技术,运用到更多存在不完美信息的博弈问题里头,像是麻将啦,斗地主啦,桥牌啦等等,与此同时,还计划开展多人博弈策略空间的均衡结构分析这类研究内容。
博弈学习研究组介绍
博弈学习研究组,属于中科院自动化所下属的科研团队,还是中科院人工智能创新研究院骨干研究力量,课题组负责人是兴军亮研究员,课题组有正式员工9人,有博士研究生7人,还有硕士研究生9人,进而形成了一支以青年科研骨干为主体的高水平且高素质的科研队伍。
研究组把计算机博弈当作研究的切入要点,把最新的机器学习技术引进经典博弈理论和模型里,还借鉴运筹学、最优化、算法设计等学科的研究办法与算法,构建起具备鲜明交叉特性的技术研究体系,运用经典博弈理论给博弈过程构建模型,再借助最新机器学习技术对模型的参数加以学习更新,达成对复杂人机博弈问题的可建模性、可计算性以及可解释性的统一。
2018 年底起,课题组着手研究以德州扑克为代表的大规模不完美信息博弈问题,2020 年公开了学界首个大规模不完美信息博弈对抗平台 OpenHoldem,该平台集成了高性能基准 AI、多维度评测协议、以在线对抗评估等构成的完整功能,支持人机、机机、人人、人机混合等对抗模式德信竞技,相关研发工作的主要完成人员有兴军亮研究员,李凯副研究员,博士生赵恩民、徐航、李金秋,硕士生闫仁业、吴哲等。
名为赵恩民的人#,名为严仁业的人#,名为李金秋的人,名为李凯的人,名为邢军亮的人*。


