AI战胜扑克玩家的背后是机器人20年来的不断进步

揭秘德州扑克成长为10亿美元产业的秘密

2026年3月15日

AA翻牌圈遇迷你check-raise，转牌圈该咋应对？

2026年3月15日

Published by dxjj on 2026年3月15日

Tags

一月份的多数时间，世界上那四名堪称最佳的职业扑克玩家，都窝在坐落于匹兹堡的大河赌场，体验着失败的滋味。他们会于上午11点前准时现身，身着时尚的运动裤以及具有版型的球鞋坐在电脑屏幕前。至夜里回到宾馆房间前，每个人大概要进行 1 对 1 单挑的1500手在线无限级德州扑克。这往往意味着每天工作会超过晚上10点。在这漫长的一日里德信竞技，装满饮品的星巴克杯与水樽杂乱地堆放在玩家键盘旁边，Chipotle墨西哥卷饼快餐的包装袋散落在他们脚边。

每一次，当一名人类玩家打出一组牌时，其动作会被传送到距离五英里外的地方，也就是卡内基梅隆大学的计算机服务器。从该服务器那里，一条指令会再传递另外十二英里的路程，才能够到达玩家的对手那里。而这是运行在位于近郊Monroeville的匹兹堡超级计算中心的，一款名为Libratus的软件。Libratus马上打出了八组牌，其中针对每个对手打出两组牌。它驱使着人类对手之一的Jason Les，以一种刻意的、足以令人发狂的缓慢速率，Les说“这让日子变得更漫长”，这个热忱且有着运动范的男人，似乎急切渴望在上个星期的这个下午休息几分钟，“漫长的等待不应该影响我才对，但有时你就好像感觉，‘好吧，这快要结束了？’”。

Libratus，显然是用不着休息的。它跟前人类玩家在别的方面也是存在差异的。在赌注更高之际，人类常常会思索更久的时间。而电脑玩家于小彩池那儿出牌是最慢的，这是因务必依据手头剩余更多的筹码去遍历全部的附加可能性所引发的。Libratus也倾向于作出巨大的、突然的赌注，违背标准的投注惯例而将它的赌资以一种不规则的数额以及奇特的间隔押入彩池中。

就人类玩家的视角而言，这般举止是让人愤怒且莽撞的，从长远角度看也并不“划算”。然而 Libratus 身为扑克电脑玩家，其主要特性便是“极其奢侈”。在大河赌场举办的这场 20 日比赛于周一结束时，人类已然亏损了 180 万美元。（实际上无需真正支付现金，钱是用于扑克计分的一种方式）计算机科学家Tuomas Sandholm和Noam Brown，他们来自卡内基·梅隆大学，一同创造了人工智能Libratus，为此一起庆祝，电脑首次在无限德州扑克中打败顶级人类玩家，而无限德州扑克是世界上最卓越的扑克游戏。

人工智能方面的专家，始终将游戏当作开发以及测试自身“创造物”的一种途径，计算机已然战胜了国际象棋、国际跳棋、西洋双陆棋以及围棋领域中极为出色的人类选手，扑克游戏因存在机会因素，且玩家并不清楚对手持有何种牌，故而成为一种独特的挑战，这种被称作非完美信息博弈的游戏，需要某种人类的狡黠，比如欺骗对手，同时能够觉察到对方在欺骗自己，而这恰恰是电脑所缺乏的。

“你于比赛里所瞧见的扑克游戏是无限德州扑克，其声誉更多源自艺术而非科学，”Adam Kucharski讲他乃《完美赌注：科学和数学是如何从赌博中排除幸运》的作者。“存在一种想法是该游戏会因这些机器而更长久地安全。”。

这种思想于近几个星期，获取到突破性进展啦。在一月初的时候，阿尔伯塔大学，也就是University of Alberta 的研究人员，发表了一篇文章呢，文章所讲的内容是，他们自己研发出来的，名为DeepStack 的 AI，打败了 11 个职业扑克玩家。

这是一个有争议的问题，即DeepStack能不能击败Libratus。Sandholm讲，和他的机器人对阵的职业玩家，比被DeepStack击败的玩家更出色。阿尔伯塔大学计算机程序负责人Michael Bowling认可这一点，不过他也质疑，那些人类玩家在持续奋战将近一个月时，是否还处于最佳状态。DeepStack的获胜优势，还是Libratus的三倍。

有两个人，他们都觉得扑克人工智能才刚刚迈过了一个关键的门槛，对他们来讲，这和扑克自身的关联是非常少的，德州扑克仅仅是他们只是把它当作找寻人工智能项目合作伙伴的一种途径，人工智能借助玩游戏所获得的成果会传回到像网络安全这类的应用领域，“这是社区达成的主要基准数据，然而这些算法可不是仅仅为了玩扑克才开发的”，Sandholm讲道，他曾经是世界顶级的风帆运动员中的一员，其外表看上去有点像比尔盖茨，“玩扑克仅仅是一种普遍的用途”。

卡内基梅隆大学的扑克研究项目，是被Tuomas Sandholm所领导的。

DeepStack和Libratus玩的是特殊版本的扑克游戏，是计算机与每个对手单挑，而非对抗一组玩家，每个玩家持有的筹码数量在每手牌之后会重置，借以消除拥有大量筹码的玩家通过胁迫低端玩家进行高额投注而产生的复杂心理游戏，全球领先的在线扑克游戏平台PokerStars的发言人Eric Hollreiser称，这限制了AI给扑克产业带来的威胁。他说，尽管它于一种手动功能性的根基之上 mimic 扑克游戏，然而这跟现实里牌桌上所出现的全部情形相去甚远。

还有其他与之相类似的实验，是在较少受到控制的环境当中开展的。自从科学家于实验室将它们构建以来，扑克机器人便始终在进行着在线赌数额钱财的游戏。它们向来仅仅玩低赌注的游戏，并且从来都未曾被视作是老手。然而，赌博行业的分析师，以及身为在线扑克行业报告发布者的Chris Grove表示，扑克机器人正朝着更高赌注的竞赛里扩散。“要是你身为一名在线扑克运营商，这极有可能成为你最为首要的欺诈担忧，并且或许会对相当大的利润空间造成影响，”他说道。

扑克产业跟学术扑克界，已然悄悄合作好些年了，参与其中的每个人，对细节都绝口不提。然而，商业扑克机器人制造者以及试图打击他们的那些人，都在密切留意学术工作的进展情况。Bowling先前的几个弟子，已经前往在线扑克公司工作了，而且至少有一个，在售卖用于在线博彩的机器人。

在扑克行话里，那种能够替代你去进行游戏的程序，被称作是 “梦境机器”。在线论坛的参与者，会相互交流有关何时出现的可疑活动或许表明你正在与机器人对战的情况，还会交流关于他们怎样制作自身扑克机器人的”战争故事”。

加拿大博彩公司 Amaya 旗下的扑克之星游戏平台（PokerStars），专门雇了 70 人治理这种欺诈行径。这些反欺诈人员直接联络可疑玩家，让他们讲出在某手牌上所施行的策略。该公司还会给可疑玩家发电子邮件，要求制作 360 度视频来展示其周边环境，接着玩超一小时游戏，且在整个过程中手和键盘要保证完全能看见。

机器人无需具备丰富扑克游戏技巧即可自游戏运营商处获取盈利，此情况对整个行业而言是危险的。一个凭借榨取普通玩家来获取一定利润的程序，或许会致使某些人冒险行事。然而，英国在线游戏公司Gamesys的扑克策略主管Darse Billings称，实际上“梦境机器”与学术界所研究的AI运用的技术不同，且试图应对的是从根本上全然不同的挑战。1. 存在一个打败低端玩家的程序。2. 还有一个打败精英玩家的程序。3. 打败低端玩家的程序，并非只是对那个打败精英玩家程序删减简化形成的版本。4. 这属于两个全然相互独立的问题。

Billings对这两种扑克领域的了解，比其他任何人都要深刻。他于20世纪90年代取得计算机科学硕士学位，随后成为正职扑克玩家，目的是偿还学生贷款。几年过后，他重返校园，与阿尔伯塔大学的计算机科学家Jonathan Schaeffer展开合作，此人最为出名的是编写了能够完美进行国际跳棋比赛的软件。Billings劝说Schaeffer接下来将精力集中于扑克。

Schaffer为解开国际跳棋的问题，采用了一种基本试图去计算在任何情形下最佳移动的办法，却不去考量那一步所发生的状况。然而，将每一步当作一个孤立问题，此举在扑克这类游戏里并无意义，因为其中涉及运气因素，并且并非每个人都能够获取到完整的信息。阿尔伯塔大学的研究人员着手去制定一个整体战略，此战略要求采用在博弈理论里被称作纳什均衡（Nash equilibrium）的策略，这是一种用于双人博弈的办法，从长远角度看，无论对手作出何种反应，采用该策略都不会产生损失。

纳什均衡并非是一种理想的游戏风格。在扑克游戏里，执行均衡战略的关键在于，打出最强且最具潜力的一手牌，并且还要保持难以捉摸。“当你押上自己最强的一手牌时，依旧需要保有一丝谨慎，”Billings说道。该团队研发了一个具有谨慎风格的AI，其被称作Pink先生，而另一个AI是积极进取风格，名为Agent Orange。难以描绘一个计算机程序的行为表现，这听起来不像是你所谈论的事物，可实际上却是你所思考的。

专门从事博弈理论的阿尔伯塔大学的Bowling被均衡策略所吸引，该策略于2003年开始被应用到扑克领域。身为卡内基梅隆大学Bowling论文委员会一员的Sandholm，在接下来的一年转向扑克领域，采用了类似的办法。Sandholm和Bowling从2006年起开始共同举办年度计算机扑克比赛，会定期针对顶尖的人类玩家。抛开他们之间的这种竞争关系，实验室一直都在关注彼此的研究成果。

往时几年间，这两项项目显著演进至最终时期。2015年1月之际，Bowling所在团队发布一篇文章，展示其针对有限德州扑克单挑玩法的解决方式，此玩法乃一种双人扑克游艺，较无限制德州扑克简易，缘因玩家能够限定投注。数月之后，Sandholm以及Brown（过去五年于扑克AI领域同其共事的博士生），于大河赌场举办了他们首场“人脑对AI”竞赛。他们那名为Claudico的机器，与四名职业玩家对抗，在打了超过8万手牌后，损失了$73.2万。Sandholm称，比赛势均力敌可称作平局，不过至少有一个玩家对此持有异议。

Sandholm与Brown称，自那次比赛后，他们的AI在诸多常规维度存在改善。Claudico于比赛前期呈现良好态势，然而临近结束之际常出现失误。它于有误的时刻进行虚张声势之举，而且在依据桌上所打出的牌来计算牌局之际总会遭遇困扰。以最为简单的情形来讲，要是牌桌上有两张王，并且你手中同样持有两张王，如此便能推断出你的对手手中并未持有王卡。Libratus在这些全部方面均有改进，其创造者于其他方面依旧秉持着谦虚的态度，特别是在依据一日比赛进程中所进行的学习进而展开调整这一方面。

Libratus 的整体的所有的细微的具体的情节状况最后终将在那其的缔造塑造者公布宣布成果成效的时候逐个依次得以显现揭示出来。此等这般的学术方面的研究钻研所成就获得的成果结果常常通常往往经由以各种各样的方式方法渗透融入到实际现实的世界天地当中的扑克一类的比赛竞赛之中。依据按照布朗所讲所说，年度的一年一次的电脑计算机方面的扑克一类的比赛竞赛其中也涵盖包含了进入到现金金钱游戏竞逐赛场的参赛人士参加者。Bowling 声称表示他的研究钻研的论文文章在留言留言板之上受到了制造打造机器人的人员人士的欢迎喜爱备受青睐。“存在有一整个的全然独立的团队小组对这些论文文章进行阅读阅览并且尝试试图去领会理解弄明白这些论文所含表意，” 他如此讲说表白道。

2008年，Billings加入了扑克行业，他是少数在离开阿尔伯塔大学项目之后这么做的人，而多数人都加入了运行游戏平台的公司。Richard Gibson则独自开创了事业，创办了一个名为机器人鲨鱼游戏公司的公司，该公司主要业务是构建AI程序学习和打战略游戏，还创建了一个叫做Sportsbid的幻想体育公司。

2013年的时候，Gibson完成了博士学位，那时，有一群职业玩家找上门来，提出让他提供能用于培训的软件，而且还愿意为此付费。Gibson手头仅仅只有其中一个人的名字，他从来都没有私自和其中任何一个客户见过面，他并不清楚这群玩家具体到底有多少人。他说：“就算他们不把软件用于在网上赌博，这依旧是一个污点。”。

Gibson开发出了多个程序，其表示所设计的软件是用来演示各种策略具有有效性。程序自身是不能够运行的。在他赚得最多的一年当中，Gibson就那个项目赚取了差不多10万美元，客户另外还在运行软件相关的计算能力方面花费了2万到3万美元之事有发生。

并非 Gibson 的唯一客户是匿名专业人士。于一个案例里，他讲有人付给他几万美元，花大约 6 个月去构建一个轻量级的扑克机器人。他没询问客户会怎样使用它，且他不想知道，不过设计方向去往一个特定的应用场景。他说道：“我的客户想要一个能独立运行的程序，如此便可加载到他们的笔记本电脑。” 他又说：“我猜他们尝试借助它玩在线游戏。”。

在大河赌场，每当每个黑夜完结之际，Les会同其身为扑克行家的伙伴，去订购外卖，还要详尽研讨白昼对战所产生的数据，借此尽可能寻觅Libratus的薄弱之处，月初时，他们每日清晨睡醒之际，皆满怀乐观之情，缘由是他们掌握了一些全新秘诀， “头几天我们察觉到了一些特定破绽，”Les讲道， “我们凭借破绽再三予以进攻，然而如今那些破绽已然消逝。”。

同样做出调整的还有 Libratus，在白昼之际，程序会把自身那一部分计算能力，分配至前台用以博弈出牌，而剩余的另一部分能力，则被分配到 Sandholm 所讲的 “持续战略改进” 的计算方面。到了夜晚之时，程序会全然侧重于战略分析，借助超级计算机的 600 个节点，等于大约 3,330 台高端 MacBook 协同开展工作。

莱斯表示，在扑克以及其他多种游戏当中，人工智能于顶层展开博弈，电脑所制定的策略会反馈给人类玩家，莱斯称他尝试弄明白怎样把一些Libratus的不规则投注行为应用到自身比赛里，他说道，这极为困难，我们基本上欠缺足够的心智容量去做这件事。

要是人类已然抵达了这样一种节骨眼，哪样的节骨眼呢？就是对他们而言电脑对手太过完美的这种节骨眼，然而像 Sandholm 和 Bowling 所运营的实验室却碰到了几乎截然相反的问题。跟专业玩家进行一对一比赛，这是一回事。可是把 Libratus 和 DeepStack 转变为玩家有信心战胜一群存在缺陷之人，却不存在明确的演进路线。这是由于当其他人游戏的关键并非追求完美博弈，而是致力于识别并利用缺点时，那 AI 所运用的均衡策略在多人游戏里就会瓦解。

几年前，Bowling开展了一项实验活动，在这个实验里，有三个机器人彼此进行对抗，其中的两个机器人运用的是他实验室里最为接近具备趋于完美特质的机器人，然而，第三个机器人通过编程方式提升了偏向鲁莽的特性，当比赛告终结束下来的时候，最不聪明智能程度最低的机器人仅仅只是丢失了数量不多少许的钱，其中有一个达到完美程度的机器玩家收获取得了堪称巨大显著的胜利，而另外一个则输得极为彻底完全惨败。

“这着实是相当困难的。要是你清楚自己要坐下来，跟那些并非十分出色的人类玩家或者其他程序一同竞赛，那你会采取怎样的策略呢？”Bowling讲道。“你必定得为这事做好准备。”。

AI战胜扑克玩家的背后是机器人20年来的不断进步

揭秘德州扑克成长为10亿美元产业的秘密

AA翻牌圈遇迷你check-raise，转牌圈该咋应对？

揭秘德州扑克成长为10亿美元产业的秘密

AA翻牌圈遇迷你check-raise，转牌圈该咋应对？

dxjj

Related posts

北京推出大众扑克赛事 探索全民健身新路径

牌似人生：德州扑克所蕴含的人生道理启示

吴世春谈投资之道：如德州牌局，待人和善方能抓住良机

北京推出大众扑克赛事探索全民健身新路径