德州扑克入门指南,带你轻松走进扑克世界
2026年2月13日
您从第 52 天玩德州扑克中学到的三件事
2026年2月13日一项国际卓越论文奖颁给了德州扑克?
这是真事。

近来,于美国人工智能协会所举办的人工智能国际顶级会议——AAAI 2022之上,大会的卓越论文奖项,被颁发给了一款轻量型德州扑克AI程序——AlphaHoldem。其在与高水平德州扑克选手进行对抗之际,它的决策速度以及各方面的表现,已然达到了人类专业玩家的水准。
而这项AI程序,就来自中国科学院自动化所的兴军亮团队。
打个扑克都能写论文?
这个德州扑克AI,到底有什么了不起?
德州扑克&人工智能
对于德州扑克以及人工智能,不管普通大众以怎样的视角去看待,其第一反应都会认为在它俩之间,彼此毫无关联。然而,只要去思索一下那个与柯洁进行围棋对弈的AlphaGo,难道不就能够较好地理解了吗?
确实是,这一回斩获奖项的德州扑克人工智能——AlphaHoldem,就是如同AlphaGo那样的存在。只是,在针对AlphaHoldem进行训练的进程里,其训练所用的模型是德州扑克。

用 AI 的训练模型做游戏,在人工智能这个领域,已然是颇为常见的一桩事。
相比于围棋,德州扑克更能够检验AI在信息不完整、对手不明确情形下的智能博弈技术。故而近些年来,业内一致认可德州扑克极为适宜当作一个虚拟实验环境,用以深入钻研博弈的相关基础理论方法以及核心技术算法。
当前,相对较为普遍流行的面向德州扑克情形的人工智能核心构思理念,乃是借助一种被称作“反事实遗憾最小化(CFR)”的运算法则方式,朝着纳什均衡策略进行接近趋同——也就是说在其他所有参与人员策略已经确定固定下来的状况情形之下,其中任意一位作为参与者的人,他所施行做出的策略均是属于那种被认定为“最优解”的策略。
不过,这种方法一直存在一个颇为明显的缺陷,它过度依赖人类专家去开展博弈树抽象。这便意味着,不管是在开展AI训练之时,还是在最终对局之际,它都需要海量的计算以及存储资源。而这,同样成为了限制德州扑克AI进一步发展的阻碍。
兴军亮团队取得了能够在AAAI 2022上荣获卓越论文奖这般的成果,原因在于他们针对AlphaHoldem运用了一种全新的、基于端到端的深度强化学习算法。

端到端学习德州扑克AI学习框架
有一种新算法,它把一种改进过后的深度强化学习算法,跟一种新型的自博弈学习算法相融合,能够在不借助任何领域知识的情形下,直接从牌面信息开始,端到端地去学习候选动作,而后做出决策。
证据表明,AlphaHoldem每一次做出决策的速率甚至连3毫秒都达不到,相较于之前同类型的AI做出决策的速度快出了1000倍。而且,AlphaHoldem跟4位具备高水平实力的德州扑克选手进行1万局对抗所产生的结果同样证实,它已然拥有了人类专业玩家的水准。
成为AI玩家“训练师”
研究成果得到国际主要学术组织的认可,是一件不俗的成绩。
但是,有谁能够想到,可以取得这般成绩的兴军亮,竟然是“半路出家”?他最开始的时候从事的是计算机视觉方面的研究,简而言之,就是去教导AI识别“是什么”。那么,随着研究不断地深入下去,兴军亮发觉,仅仅教会AI“是什么”,和真正的人工智能所追求的目标之间相差得非常远。未来究竟该朝着什么样的方向去行进,这个问题困扰了他很久很久。
兴军亮有了用游戏训练AI的想法,最早是受AlphaGo启发,透过教AI下围棋德信竞技,兴军亮发现 ,这个动作实质是解决AI领域的“认知智能”问题 ,让AI不但知道“是什么” ,还能知道“为什么”。
进而加之于人工智能的发展历程当中,游戏自身便是相关研究的试验场所 ,借由游戏训练出更为厉害的AI ,这便成为了兴军亮的目标。

兴军亮
兴军亮原本很少接触游戏,为了能全方位地去了解不一样类型游戏的机制,他选择开始培养自己的“网瘾”,具体做法是找出代表型游戏,接着研究教程,然后练习手速,最后完成通关,每一步所做的都不比职业玩家少,都很繁杂。
在此进程当中,兴军亮愈发觉得,玩游戏乃是一件极具趣味的事情。特别是不同游戏的机制设定,极为适宜用以探究一些基础的科学问题。在这当中,存在着游戏博弈。
拿此次获奖的德州扑克AI程序来讲,它的本质意味着是一种不完美信息的博弈问题,由于依照德州扑克游戏规则,每个人手中持有两张私有牌,牌面大小对最终胜负没产生任何影响,鉴于玩家可以借助如假装牌面较大、押注金额较多等方式来吓跑对手。

两人无限注德州扑克一次游戏过程示意
兴军亮带着团队,为教会AI打德州扑克,前后动用十多台服务器,集中算力,让AI持续跟自己打牌,历经20天时间,打到了约莫1亿局。
随后,他们对游戏学习的性能做了进一步的提升。此次,他们仅仅凭借1台服务器,在训练不到3天的情况下,便能够达成预期的水平。
在这个进程当中,参与训练的AI能学到一些近似于只有人类专业选手才会领会的计谋,这恰恰是不完美信息博弈最为有趣的所在之处。当下,兴军亮与团队打造的德州扑克在线人机对抗平台OpenHoldem(http://holdem.ia.ac.cn/),业已对外展开开放。按照兴军亮的说法,这个系统或许是国内唯一能够公开进行德州扑克游戏的场所。
当然,兴军亮的目标绝不仅仅是带着AI攻略下一款款游戏。
类似那种不完美信息博弈的机制,在经济政策制定领域,在法律法规优化领域,在外交策略选择领域,都有着极为广泛的应用价值。而这些领域,恰恰是国际同行正全力以赴去攻克的方向,同时也是国内相关研究相对较为薄弱的环节。
兴军亮持以不懈追求的方向,乃是去训练出一个既能更聪明,又能更有用,还能够与人类融为一体的人工智能标点符号。


