田元东：扑克AI原理解读应该和AlphaGO一样受到关注

解读德州扑克中牌面类型，学会策略调整

2026年1月23日

德州扑克安卓版怎么下载，快速获取游戏体验

2026年1月23日

Published by dxjj on 2026年1月23日

Tags

为了将人机大战的奥秘彻彻底底地揭开，地平线大牛讲堂幸运且极为荣耀地邀请到曾经在UEC打入决赛的队伍中，身为Facebook围棋AI程序DarkForest的首席工程师以及这篇程序的第一作者位置那一位田渊栋博士，来为我们深入探究其中的究竟，本文是由奕欣和亚萌进行整理的，并且是由田老师做了审核以及编辑的工作，在此特地表示感谢。

嘉宾介绍

田渊栋是Facebook人工智能研究院的研究员，是 Facebook 围棋AI程序DarkForest的首席工程师以及第一作者，是卡耐基梅隆大学机器人研究所的博士，曾担任Google无人驾驶团队的软件工程师，还获得过国际计算机视觉大会即ICCV马尔奖荣誉提名。

本文是田渊栋演讲关于德州扑克部分的节选。

德州扑克

之后我们来讲讲德州扑克怎样，首先我们得明确这是“一对一无限注德州扑克”游戏（Heads-up no-limit Texas Hold‘em），“一对一”意味着是我跟你两人之间的零和游戏，即我输钱你就赢钱、我赢钱你就输钱，并非那种很多人在一张牌桌上有庄家的情形，多人游戏要困难得多，主要是当下所采用的办法在多人游戏时无法确保效果，而且状态空间也增大了许多。

下每次注时，“无限注”并非之前整数倍，可为任意数。而有限注德扑下注时成倍数下，“有限注”此问题两三年前已解决，当时发了篇Science文章。那篇文章本应如AlphaGO般受极大瞩目，可不知为何，当时却未。

有两个极为厉害的扑克AI，这两个所运用的皆是同样的框架，这个框架叫Counterfactual Regret Minimization（CFR），简单来说，就是将游戏里碰到的可观测状态（此状态被称作信息集Information Set）全部罗列出来，接着针对每个可观测状态，凭借最小化最大悔恨值的方式，寻找到相应的策略，随后不断反复迭代。

CMU的Libratus是一个，它进行了为期20天的比赛较量，战胜了4个极具实力的扑克玩家。（AI科技评论网附注：2017年1月时，Libratus参与了12万手一对一不限注的德州扑克玩法。直至比赛告终，人工智能在筹码方面领先人类选手总计约177万美元之巨。）。

还有一个名为DeepStack的，（AI科技评论注明：由加拿大阿尔伯塔大学、捷克布拉格查理大学以及捷克理工大学训练的AI系统，与11位职业扑克手开展了3000场无限注德州扑克比赛，胜率为10/11），他们在互联网上也参与过一些大型职业赛事。

CMU Poker bot

德州扑克分析软件免费_德州扑克AI_Counterfactual Regret Minimization

介绍内容

CMU Poker bot的玩法不含对深度学习的运用，他们采用了End-game solver，鉴于德州扑克每次对局耗时较短，或许仅历经几个回合便宣告结束，故此能够凭借从下至上的方式构建游戏树，如此一来所具备的益处在于，处于构建游戏树至下方的节点时，相应状态的计算难度较低，可借助已然算出的这些较简单状态，进行反向推导，进而指导上方游戏树的设计。另外，他还运用了蒙特卡罗方法，标准的CFR在每次迭代之际，都要对整个游戏树进行一番搜索，这对于稍微复杂些许的游戏而言，是无法被接受的，原因在于其复杂度呈指数级，故而采用蒙特卡罗方法，每次挑选一些节点去更新其上面的策略，还有一点便是，通常来讲，我们在进行游戏之时，常常会思索如何去利用对方的弱点，然而，事实并非如此，更好的做法是，我尽可能让别人察觉到我的弱点，而后依据此，我能够去改进它，使之变得愈发强大。从术语角度而言，便是去核算竞争对手的最佳应对举措，使得对手能够借助你的薄弱之处，进而运用此情形逆转来提升自身的水准。

阿尔伯塔大学的DeepStack

Counterfactual Regret Minimization_德州扑克AI_德州扑克分析软件免费

原理介绍

我们所见到的DeepStack的基本流程，是AlphaGo与国象的某种混合版本，也就是存在有限深度的搜索，还加上运用值网络进行估值。详细来讲呢，是从当下状态开始朝前去看三四层的子树，在最底层借助值网络估算一下值，也就是判断谁优谁劣，随后运用通常所用的CFR去求解这棵子树的最优策略。对于值网络而言，每个人拥有两张手牌，从52张里选2张，会出现1326种情形，可是每种情形都存在概率，将其作为输入。输入所涵盖的还包括当时的筹码数以及公共牌。输出的是，在每种手牌的情况之下，所估计的值函数，也就是反事实值函数，会是多少。

基于新浪科技所传出的信息，在今年4月的时候，很有可能Libratus（冷扑）会来向中国发起挑战，就是同中国的德州扑克牌手参与一场人机之间的大战。

（文玄）

声明：新浪网独家稿件德信竞技，未经授权禁止转载！

田元东：扑克AI原理解读应该和AlphaGO一样受到关注

解读德州扑克中牌面类型，学会策略调整

德州扑克安卓版怎么下载，快速获取游戏体验

解读德州扑克中牌面类型，学会策略调整

德州扑克安卓版怎么下载，快速获取游戏体验

dxjj

Related posts

北京推出大众扑克赛事 探索全民健身新路径

牌似人生：德州扑克所蕴含的人生道理启示

吴世春谈投资之道：如德州牌局，待人和善方能抓住良机

北京推出大众扑克赛事探索全民健身新路径