
带你飞!德州扑克专业术语大收罗
2026年1月23日
天天德州真人秀第三季今日在龙珠直播开启观看之旅
2026年1月23日国内仅有那唯一能够玩德州扑克的网址被曝光了,是中科院满怀诚意制作出来的,有AI在进行在线发牌 。
一项国际卓越论文奖颁给了德州扑克?
这是真事。

最近,在美国人工智能协会所举办的人工智能国际顶级会议——AAAI 2022之上,该大会的卓越论文奖项,被颁发给了一款轻量型德州扑克AI程序——AlphaHoldem,在与高水平德州扑克选手展开对抗期间,它的决策速度以及各方面表现,已然达到了人类专业玩家的水准。
而这项AI程序,就来自中国科学院自动化所的兴军亮团队。
打个扑克都能写论文?
这个德州扑克AI,到底有什么了不起?
德州扑克&人工智能
普通人无论从何种角度去看待,对于德州扑克以及人工智能,其第一反应都会认定两者之间,完全是毫无关联的。然而,只要思索一下那个与柯洁进行围棋对决的AlphaGo,难道不就能够较好地理解了吗?
对的,此次获奖的德州扑克 AI,也就是 AlphaHoldem,是如同 AlphaGo 那般的存在。只是,在针对 AlphaHoldem 的训练进程里德信竞技,其训练模型是德州扑克。

以游戏作为AI的训练模型,于人工智能领域当中,已然是极为平常的一桩事情。 , 。
相较围棋而言,德州扑克更能够检验AI于信息不完整、对手状况不明朗情形下的智能博弈技艺。故而在最近几年里,业内一致认可德州扑克极为适宜当作一个开展虚拟实验的环境,用来对博弈的相关基础理论办法、核心技术算法展开深度探究 。
如今,较为流行的德州扑克 AI 关键思路,是运用一种名为“反事实遗憾最小化(CFR)”的办法,去靠近纳什均衡策略,也就是在其他所有参与者策略已确定的情形下,任意一位参与者所采取的策略都是“最优解”。
但是呢,这种办法一直存在着一个相对较为显著的不足之处,那就是它过度依靠人类专家来开展博弈树抽象,这也就表明了,不管是在开展AI训练的时候,还是在最终进行对局的阶段,它都需要数量众多的计算以及存储资源,而这一点,同样变成了限制德州扑克AI进一步向前发展的障碍 。
兴军亮团队在AAAI 2022上斩获卓越论文奖,原因在于,他们针对AlphaHoldem运用了一种全新的、基于端到端的深度强化学习算法。

端到端学习德州扑克AI学习框架
这种新算法,把一种改进过后的深度强化学习算法,与一种新型的自博弈学习算法相融合,能够在不借助任何地域知识的状况下,直接根据牌面信息,从端到端去学习候选动作,之后做出决策。
数据表明,AlphaHoldem每一次进行决策时的速度,甚至连3毫秒都达不到,它比之前同一类型的AI决策速度要快出1000倍。而且,AlphaHoldem跟4位具备高水平的德州扑克选手开展1万局对抗的最终结果也证实,它已然达到了人类专业玩家的水准。
成为AI玩家“训练师”
研究成果得到国际主要学术组织的认可,是一件不俗的成绩。
最早受AlphaGo启发,兴军亮才有了用游戏训练AI的想法。教AI下围棋时,兴军亮发现,这个动作的实质是在解决AI领域的“认知智能”问题,即让AI不但知道“是什么”,并且还能所知“为什么”。
加之在人工智能的演进历程里,游戏自身便是相关探究的试验场地,借由游戏培育出更为强大的人工智能,便成为了兴军亮所确立的目标。

兴军亮
欲要全方位知晓各异类型游戏之机制,兴军亮本甚少接触游戏,遂起身培育自身之“网瘾”,先是找出代表型游戏,接着研修教程,而后操练手速,最后达成通关,层层步骤较之职业玩家毫无落下,悉具备之。
于这个进程里边,兴军亮愈发察觉,玩游戏是一桩极为有意思的情事。特别是各异游戏的机制设定,极其适配用以钻研某些基础的科学问题。在此当中,便存在游戏博弈。
拿此次获奖的德州扑克AI程序来讲,它的本质是一个博弈问题,是处于不完美信息状态下的。德州扑克有其特定游戏规则,每个人手上会持有两张私有牌。牌面大小对最终胜负并无影响,玩家能够借助假装牌面大,以及押注金额大等方式,把对手吓跑 。

两人无限注德州扑克一次游戏过程示意
因要教会AI玩德州扑克,兴军亮带领团队,先是动用了十多台服务器,而后集中算力,接着让AI持续跟自己打牌打了20天,打出了约1亿局 。
之后,他们又对游戏学习的性能予以了进一步的提升。此次,他们仅仅使用1台服务器,进行训练,不到3天的时间 ,便能够达成预期当中的水平。
在这个进程当中,参与训练的AI能够学会一些近似于只有人类专业选手才会掌握的计谋 ,而这 ,恰恰是不完美信息博弈最为有趣之处 。当下 ,兴军亮和团队打造的德州扑克在线人机对抗平台OpenHoldem(http://holdem.ia.ac.cn/) ,已对外展开开放 。依据兴军亮所言 ,这个系统或许是国内唯一能够公开进行德州扑克游戏的场所 。
当然,兴军亮的目标绝不仅仅是带着AI攻略下一款款游戏。
类似那种并非完美信息的博弈机制,在经济政策予以制定的领域,在法律法规进行优化的范畴,在外交策略展开选择的方面,等诸多领域当中,均有着极为广泛如此这般的应用。这些领域所涉及的情况,是国际同行正在做出努力去攻克的情形,同时也是国内相关研究相对比较薄弱的状况。
努力训练出一个人工智能,这个人工智能要更聪明,还要更有用,并且能够和人类融为一体,而这正是兴军亮始终不懈追求的方向。


