惊曝国内独一可玩德州扑克的网址，中科院倾心打造，AI 线上发牌

算清概率背后的心理陷阱：庄家不败的底层逻辑

2026年3月27日

德州扑克牌力大小排名

2026年3月27日

Published by dxjj on 2026年3月27日

Tags

国内仅有的、可进行德州扑克游戏的网址被曝光了，它是由中科院满怀诚意制作推出的，并且具备AI在线发牌功能。

一项国际卓越论文奖颁给了德州扑克？

这是真事。

德州扑克手_中科院德州扑克AI_AlphaHoldem

近来，于美国人工智能协会所举办的人工智能国际顶级会议——命名为AAAI 2022的会上，大会的卓越论文奖项，被颁给了一款轻量型的德州扑克AI程序——AlphaHoldem。在和具备高水平的德州扑克选手展开对抗时，其决策速度以及各方向的表现，业已达成人类专业玩家的水准。

而这项AI程序，就来自中国科学院自动化所的兴军亮团队。

打个扑克都能写论文？

这个德州扑克AI，到底有什么了不起？

德州扑克&人工智能

提到德州扑克与人工智能，无论普通人何种看法，其第一反应都会觉得二者之间，毫无关联。然而，只要去想一想那个曾与柯洁对弈围棋的AlphaGo，是否就容易理解了呢？

确实是这样，这一回荣获奖项的德州扑克AI，也就是AlphaHoldem，它是类似于AlphaGo的存在。只是，在针对AlphaHoldem展开训练的进程当中，其训练模型是德州扑克。

中科院德州扑克AI_德州扑克手_AlphaHoldem

使用游戏来构建AI的训练模型，于人工智能这个领域当中，已然是极为平常的一桩事儿。

较之于围棋，德州扑克更能够检验AI于信息不完整、对手不明确情形下的智能博弈技巧。故而在近些年里，业内一致认定德州扑克特别适宜充当一个虚拟实验环境，用以对博弈的相关基础理论办法、核心技术算法而进行深度探究。

当下，较为流行的德州扑克AI核心观念，是借助一种名为“反事实遗憾最小化（CFR）”的算法，去接近纳什均衡策略，也就是在其他所有参与者策略已确定的情形下，任意一位参与者所采取的策略都属“最优解”。

然而，此种方法始终存在着一个显著性较为突出的欠缺之处：其过度重度依靠人类专家去开展博弈树抽象。这便表明，不管是于进行AI训练之际，还是在最终的对局之时，均深切需要海量的计算以及存储资源。而这一点，同样演变成了对德州扑克AI进一步拓展形成制约的拦路虎。

兴军亮团队，在AAAI 2022上，获得卓越论文奖，是由于他们为AlphaHoldem采用了一种新的、基于端到端的深度强化学习算法。

德州扑克手_中科院德州扑克AI_AlphaHoldem

端到端学习德州扑克AI学习框架

这种新算法，把一种改进后的深度强化学习算法，跟一种新型的自博弈学习算法相联合，能够在不借助丝毫领域知识的情形下，直接从牌面信息处启动端到端的学习，针对候选动作展开学习，而后作出决策。

经数据呈现，AlphaHoldem每次进行决策时的速度，甚至连3毫秒都未达到，其相比之前同类型的AI决策速度，快出了1000倍。而且，AlphaHoldem与4位具备高水平的德州扑克选手相互对抗1万局之后所得的结果同样表明，它已然达到了人类专业玩家的水准。

成为AI玩家“训练师”

研究成果得到国际主要学术组织的认可，是一件不俗的成绩。

兴军亮有了用游戏训练AI的想法，最早是受AlphaGo启发，教AI下围棋时，兴军亮发现，此动作实质是解决AI领域的“认知智能”问题，能让AI不仅知道“是什么”，还能知道“为什么”。

加之于人工智能的发展历程之中，游戏自身本就是相关研究的试验场地。借由游戏去训练出更为厉害的AI，便成为了兴军亮的心之所向了。

德州扑克手_AlphaHoldem_中科院德州扑克AI

兴军亮

兴军亮原本很少接触游戏，为了能全方位地去了解各种不同类型游戏的机制，他开始培养自己的“网瘾”，先是找出代表型游戏，接着研究教程，然后练习手速，最后完成通关，每一步所做的都不比职业玩家少。

在此进程当中，兴军亮愈发觉得，玩游戏乃是一件极为有意思之事。特别是不同游戏的机制设定，极其适宜用以探究一些基础的科学问题。于此其中，存在着游戏博弈。

在此次获得奖项的德州扑克AI程序中，其本质是对应一个并非完美信息的博弈问题，由于德州扑克有着既定规则，每个人手上都会拥有两张属于自己的牌，牌面大小对最终胜负无影响，因为玩家能够借助假装牌面大以及押注金额大等方式将对手击退。

AlphaHoldem_中科院德州扑克AI_德州扑克手

两人无限注德州扑克一次游戏过程示意

兴军亮带着团队，为教会AI打德州扑克，前后动用十多台服务器，集中算力，让AI持续跟自己打牌，打了约1亿局，历经20天时间。

随后，他们再度对游戏学习性能予以进一步提升。此番，他们仅仅凭借1台服务器，在训练时长不足3天的情况下，便能够达成预期水准。

在这个进程里面，参与训练的AI能够学到一些跟人类专业选手才会掌握得住的计谋颇为相似的东西。而这一点，恰恰就是不完美信息博弈最为有意思的所在之处。当下，兴军亮以及团队打造的德州扑克在线人机对抗平台OpenHoldem（http://holdem.ia.ac.cn/），如今已经面向外界开放了。按照兴军亮所讲的，这个系统说不定是国内唯一能够公开进行德州扑克游戏的场所。

当然，兴军亮的目标绝不仅仅是带着AI攻略下一款款游戏。

存在一种机制，它是像不完美信息博弈这样的机制，在经济政策制定领域有广泛应用，在法律法规优化领域有广泛应用，在外交策略选择等领域也有广泛应用。这些应用情况，是国际同行眼下正付出努力去攻克的内容，同时也是国内相关研究相对比较薄弱的方面。

让人工智能变得更聪明，使其变得更有用，还要让它能够和人类融为一体德信竞技，这是兴军亮始终不懈追求的一大方向，他致力于去训练出这样的人工智能。

惊曝国内独一可玩德州扑克的网址，中科院倾心打造，AI 线上发牌

算清概率背后的心理陷阱：庄家不败的底层逻辑

德州扑克牌力大小排名

算清概率背后的心理陷阱：庄家不败的底层逻辑

德州扑克牌力大小排名

dxjj

Related posts

北京推出大众扑克赛事 探索全民健身新路径

牌似人生：德州扑克所蕴含的人生道理启示

吴世春谈投资之道：如德州牌局，待人和善方能抓住良机

北京推出大众扑克赛事探索全民健身新路径