
解读德州扑克中牌面类型,学会策略调整
2026年1月23日
德州扑克安卓版怎么下载,快速获取游戏体验
2026年1月23日为了将人机大战的奥秘彻彻底底地揭开,地平线大牛讲堂幸运且极为荣耀地邀请到曾经在UEC打入决赛的队伍中,身为Facebook围棋AI程序DarkForest的首席工程师以及这篇程序的第一作者位置那一位田渊栋博士,来为我们深入探究其中的究竟,本文是由奕欣和亚萌进行整理的,并且是由田老师做了审核以及编辑的工作,在此特地表示感谢。
嘉宾介绍
田渊栋是Facebook人工智能研究院的研究员,是 Facebook 围棋AI程序DarkForest的首席工程师以及第一作者,是卡耐基梅隆大学机器人研究所的博士,曾担任Google无人驾驶团队的软件工程师,还获得过国际计算机视觉大会即ICCV马尔奖荣誉提名。
本文是田渊栋演讲关于德州扑克部分的节选。
德州扑克
之后我们来讲讲德州扑克怎样,首先我们得明确这是“一对一无限注德州扑克”游戏(Heads-up no-limit Texas Hold‘em),“一对一”意味着是我跟你两人之间的零和游戏,即我输钱你就赢钱、我赢钱你就输钱,并非那种很多人在一张牌桌上有庄家的情形,多人游戏要困难得多,主要是当下所采用的办法在多人游戏时无法确保效果,而且状态空间也增大了许多 。
下每次注时,“无限注”并非之前整数倍,可为任意数。而有限注德扑下注时成倍数下,“有限注”此问题两三年前已解决,当时发了篇Science文章。那篇文章本应如AlphaGO般受极大瞩目,可不知为何,当时却未 。
有两个极为厉害的扑克AI,这两个所运用的皆是同样的框架,这个框架叫Counterfactual Regret Minimization(CFR),简单来说,就是将游戏里碰到的可观测状态(此状态被称作信息集Information Set)全部罗列出来,接着针对每个可观测状态,凭借最小化最大悔恨值的方式,寻找到相应的策略,随后不断反复迭代。
CMU的Libratus是一个,它进行了为期20天的比赛较量,战胜了4个极具实力的扑克玩家。(AI科技评论网附注:2017年1月时,Libratus参与了12万手一对一不限注的德州扑克玩法。直至比赛告终,人工智能在筹码方面领先人类选手总计约177万美元之巨。)。
还有一个名为DeepStack的,(AI科技评论注明:由加拿大阿尔伯塔大学、捷克布拉格查理大学以及捷克理工大学训练的AI系统,与11位职业扑克手开展了3000场无限注德州扑克比赛,胜率为10/11),他们在互联网上也参与过一些大型职业赛事。
CMU Poker bot

介绍内容
CMU Poker bot的玩法不含对深度学习的运用,他们采用了End-game solver,鉴于德州扑克每次对局耗时较短,或许仅历经几个回合便宣告结束,故此能够凭借从下至上的方式构建游戏树,如此一来所具备的益处在于,处于构建游戏树至下方的节点时,相应状态的计算难度较低,可借助已然算出的这些较简单状态,进行反向推导,进而指导上方游戏树的设计。另外,他还运用了蒙特卡罗方法,标准的CFR在每次迭代之际,都要对整个游戏树进行一番搜索,这对于稍微复杂些许的游戏而言,是无法被接受的,原因在于其复杂度呈指数级,故而采用蒙特卡罗方法,每次挑选一些节点去更新其上面的策略,还有一点便是,通常来讲,我们在进行游戏之时,常常会思索如何去利用对方的弱点,然而,事实并非如此,更好的做法是,我尽可能让别人察觉到我的弱点,而后依据此,我能够去改进它,使之变得愈发强大 。从术语角度而言,便是去核算竞争对手的最佳应对举措,使得对手能够借助你的薄弱之处,进而运用此情形逆转来提升自身的水准。
阿尔伯塔大学的DeepStack

原理介绍
我们所见到的DeepStack的基本流程,是AlphaGo与国象的某种混合版本,也就是存在有限深度的搜索,还加上运用值网络进行估值。详细来讲呢,是从当下状态开始朝前去看三四层的子树,在最底层借助值网络估算一下值,也就是判断谁优谁劣,随后运用通常所用的CFR去求解这棵子树的最优策略。对于值网络而言,每个人拥有两张手牌,从52张里选2张,会出现1326种情形,可是每种情形都存在概率,将其作为输入。输入所涵盖的还包括当时的筹码数以及公共牌。输出的是,在每种手牌的情况之下,所估计的值函数,也就是反事实值函数,会是多少 。
基于新浪科技所传出的信息,在今年4月的时候,很有可能Libratus(冷扑)会来向中国发起挑战,就是同中国的德州扑克牌手参与一场人机之间的大战 。
(文玄)
声明:新浪网独家稿件德信竞技,未经授权禁止转载!


