算清概率背后的心理陷阱:庄家不败的底层逻辑
2026年3月27日德州扑克牌力大小排名
2026年3月27日国内仅有的、可进行德州扑克游戏的网址被曝光了,它是由中科院满怀诚意制作推出的,并且具备AI在线发牌功能。
一项国际卓越论文奖颁给了德州扑克?
这是真事。

近来,于美国人工智能协会所举办的人工智能国际顶级会议——命名为AAAI 2022的会上,大会的卓越论文奖项,被颁给了一款轻量型的德州扑克AI程序——AlphaHoldem。在和具备高水平的德州扑克选手展开对抗时,其决策速度以及各方向的表现,业已达成人类专业玩家的水准。
而这项AI程序,就来自中国科学院自动化所的兴军亮团队。
打个扑克都能写论文?
这个德州扑克AI,到底有什么了不起?
德州扑克&人工智能
提到德州扑克与人工智能,无论普通人何种看法,其第一反应都会觉得二者之间,毫无关联。然而,只要去想一想那个曾与柯洁对弈围棋的AlphaGo,是否就容易理解了呢?
确实是这样,这一回荣获奖项的德州扑克AI,也就是AlphaHoldem,它是类似于AlphaGo的存在。只是,在针对AlphaHoldem展开训练的进程当中,其训练模型是德州扑克。

使用游戏来构建AI的训练模型,于人工智能这个领域当中,已然是极为平常的一桩事儿。
较之于围棋,德州扑克更能够检验AI于信息不完整、对手不明确情形下的智能博弈技巧。故而在近些年里,业内一致认定德州扑克特别适宜充当一个虚拟实验环境,用以对博弈的相关基础理论办法、核心技术算法而进行深度探究。
当下,较为流行的德州扑克AI核心观念,是借助一种名为“反事实遗憾最小化(CFR)”的算法,去接近纳什均衡策略,也就是在其他所有参与者策略已确定的情形下,任意一位参与者所采取的策略都属“最优解”。
然而,此种方法始终存在着一个显著性较为突出的欠缺之处:其过度重度依靠人类专家去开展博弈树抽象。这便表明,不管是于进行AI训练之际,还是在最终的对局之时,均深切需要海量的计算以及存储资源。而这一点,同样演变成了对德州扑克AI进一步拓展形成制约的拦路虎。
兴军亮团队,在AAAI 2022上,获得卓越论文奖,是由于他们为AlphaHoldem采用了一种新的、基于端到端的深度强化学习算法。

端到端学习德州扑克AI学习框架
这种新算法,把一种改进后的深度强化学习算法,跟一种新型的自博弈学习算法相联合,能够在不借助丝毫领域知识的情形下,直接从牌面信息处启动端到端的学习,针对候选动作展开学习,而后作出决策。
经数据呈现,AlphaHoldem每次进行决策时的速度,甚至连3毫秒都未达到,其相比之前同类型的AI决策速度,快出了1000倍。而且,AlphaHoldem与4位具备高水平的德州扑克选手相互对抗1万局之后所得的结果同样表明,它已然达到了人类专业玩家的水准。
成为AI玩家“训练师”
研究成果得到国际主要学术组织的认可,是一件不俗的成绩。
兴军亮有了用游戏训练AI的想法,最早是受AlphaGo启发,教AI下围棋时,兴军亮发现,此动作实质是解决AI领域的“认知智能”问题,能让AI不仅知道“是什么”,还能知道“为什么”。
加之于人工智能的发展历程之中,游戏自身本就是相关研究的试验场地。借由游戏去训练出更为厉害的AI,便成为了兴军亮的心之所向了。

兴军亮
兴军亮原本很少接触游戏,为了能全方位地去了解各种不同类型游戏的机制,他开始培养自己的“网瘾”,先是找出代表型游戏,接着研究教程,然后练习手速,最后完成通关,每一步所做的都不比职业玩家少。
在此进程当中,兴军亮愈发觉得,玩游戏乃是一件极为有意思之事。特别是不同游戏的机制设定,极其适宜用以探究一些基础的科学问题。于此其中,存在着游戏博弈。
在此次获得奖项的德州扑克AI程序中,其本质是对应一个并非完美信息的博弈问题,由于德州扑克有着既定规则,每个人手上都会拥有两张属于自己的牌,牌面大小对最终胜负无影响,因为玩家能够借助假装牌面大以及押注金额大等方式将对手击退。

两人无限注德州扑克一次游戏过程示意
兴军亮带着团队,为教会AI打德州扑克,前后动用十多台服务器,集中算力,让AI持续跟自己打牌,打了约1亿局,历经20天时间。
随后,他们再度对游戏学习性能予以进一步提升。此番,他们仅仅凭借1台服务器,在训练时长不足3天的情况下,便能够达成预期水准。
在这个进程里面,参与训练的AI能够学到一些跟人类专业选手才会掌握得住的计谋颇为相似的东西。而这一点,恰恰就是不完美信息博弈最为有意思的所在之处。当下,兴军亮以及团队打造的德州扑克在线人机对抗平台OpenHoldem(http://holdem.ia.ac.cn/),如今已经面向外界开放了。按照兴军亮所讲的,这个系统说不定是国内唯一能够公开进行德州扑克游戏的场所。
当然,兴军亮的目标绝不仅仅是带着AI攻略下一款款游戏。
存在一种机制,它是像不完美信息博弈这样的机制,在经济政策制定领域有广泛应用,在法律法规优化领域有广泛应用,在外交策略选择等领域也有广泛应用。这些应用情况,是国际同行眼下正付出努力去攻克的内容,同时也是国内相关研究相对比较薄弱的方面。
让人工智能变得更聪明,使其变得更有用,还要让它能够和人类融为一体德信竞技,这是兴军亮始终不懈追求的一大方向,他致力于去训练出这样的人工智能。


