Facebook德州扑克AI大比分击败顶尖人类选手，人类玩德州扑街了？

德州扑克游戏规则全知道，教你轻松上手

2026年1月10日

扑克董事协会发布最新规则草案供玩家关注

2026年1月10日

Published by dxjj on 2026年1月10日

Tags

人类玩德州扑克难道也遭遇失败了吗？Facebook进行开发玩德州扑克的AI，该AI以大比分战胜顶尖人类选手！

德州扑克比赛_ReBeL算法扑克_Facebook AI德州扑克

捕捉翻倍美股2020.07.2912:57

ReBeL算法扑克_德州扑克比赛_Facebook AI德州扑克

近些年来，人工智能呈现出迅猛发展的态势，许许多多重复性的工作都已被AI实现自动化了，关于人类工作将会被机器所替代的这种说法由此「甚嚣尘上」，然而到了现在，难道连打打扑克这样的事情也不可以了吗？

近日，Facebook的科研人员研发出一个通用人工智能框架，它被称作「Recursive Belief-based Learning」（ReBeL)，在玩德州扑克方面表现得极为出色。

照Facebook所讲，此框架于单挑无界限的德州扑克游戏里显著优于人类表现，并且所运用的领域知识比先前任一款扑克人工智能都要稀缺，这种框架使用的领域知识比之前任何扑克人工智能都要少，而且它所使用的领域知识在此种情况下还要比之前任何扑克人工智能都要少一些。

ReBeL被他们断定为开发一种针对通用的、用于多代理交互的技术的办法，该算法能够在大规模的、呈现多代理状态的环境里进行部署，其预期的应用范畴极其宽广，像进行拍卖、开展谈判、保障网络安全以及实现自动驾驶等诸多方面都能够派上用场。

AlphaZero在不完全信息游戏中表现「差点意思」

当下，把强化学习跟搜索相互结合起来，于人工智能模型的训练以及测试领域，已然获取了某些进展。

利用最大化回报进行学习的是强化学习代理，而从起始进到目标状态实施导航步骤的则是搜索，以DeepMind的AlphaZero为例，它凭借强化学习以及搜索技术，于国际象棋、围棋等各类游戏里达成了SOTA成效。

可是，先前的组合方式，当在应用于像扑克（就连石头、剪子、布也包括在内）这类不完全信息的游戏之时，就没那么收到功效了，这是由于它做出了一些在这种情形下并不成立的假定，。

对于任何给定的动作而言，其价值取决于该动作被选择的概率，更为普遍来讲，取决于整个游戏的策略，围棋这个游戏，其搜索空间是有限的，而且每一个动作的价值，在被选择之前是能够评估出来的。

基于信念的递归学习击败顶尖人类玩家

ReBeL 开展了对「游戏状态」概念的扩展行动，该扩展涵盖了代理于基于常识以及其他代理政策的情况下，所产生的对于自身可能处于何种状态的置信度。

一个名为ReBeL的主体，借助自我强化学习的方式，训练出了俩网络，也就是一个价值网络，还有一个政策网络。它于自我对弈期间，运用两种模型去开展搜索。最终呈现出的是一种算法，这种算法具备简单以及灵活这些特性，研究人员宣称此算法在大规模的两人不完全信息游戏里能够战胜顶尖的人类玩家。

换个角度从较高层面来讲，ReBeL 运行于公共置信状态，并非世界状态也就是游戏状态。公共置信状态也就是 PBSs，它把「状态价值」的概念拓展到类似扑克这种不完全信息游戏里，PBS 是在可能的动作以及状态的有限序列，这也被称作历史记录上的常见知识概率分布，能够给出发生不一样结果的可能性。

在完全信息的游戏里头，PBS能够提取出历史记录，于两人零和的游戏当中，PBS能够有效地提取出世界状态，扑克里的PBS是玩家能够做出的一连串决定，以及特定手牌、底池和筹码时他们的结果。

当每个游戏开始之际，ReBeL会生成一个「子游戏」，此「子游戏」跟原始游戏是一样的，只不过它起始于最初的PBS 。该算法凭借借助训练后的价值网络，在每次迭代里取近似值，进而运行「均衡查找」算法的迭代，以此来战胜对手。

和身为世界上极为出众的单挑扑克玩家之一的Dong Kim相较，ReBeL在7500手牌里，每一手牌玩的时长都超出了2秒，并且决策所需的时间从来都不会多于5秒。Facebook以往的扑克游戏系统Libratus的最高分数是147，然而ReBeL针对人类的平均每场比赛盲注（强迫下注）的得分是165（标准差为69）。

担心被拿去赌钱，Facebook决定不公开源码

在实验里头，研究人员针对ReBeL做基准测试，测试内容有无限制单挑、Liar’s Dice以及残局游戏，这当中的无限制德州扑克可是包含变体的，在这种变体里，两个玩家能够对四轮投注途中的前面两轮，去选择进行检查或者叫牌操作。

由研究组建的小组，动用了数量多达128这么多的，配备有8个显卡装置的电脑，以此来达成生成模拟游戏数据的目的，且于相关训练期间，随机去指定赌注及堆栈大小，范围是从5000一直到25000个芯片这样的数值区间。ReBeL在整场进行着的比赛进程里，接受相应训练，并且拥有20000美元的金额用来下注。

出于对作弊情况的担忧，Facebook团队作出不发布针对扑克的ReBeL代码库的决定。相反，他们把Liar’s Dice的实现予以开放了。持有这样观点的是Facebook的研究人员德信竞技，即ReBeL会让德州扑克在强化学习研究范畴更具受欢迎程度。

人工智能算法已然存在，它能够在扑克游戏里取得超人般的表现，然而这些算法一般会假设参与者具备一定数量的筹码，或者会假设参与者使用一定的赌注大小。

在实战当中，你的筹码数量并非固定不变的，因而要重新开展算法训练，处于这般情形下若想发动实时对抗便产生麻烦了不过，ReBeL能够于几秒之内算出针对任意赌注规模的策略。

参考链接：

可给出链接https://arxiv.org/pdf/2007.13544.pdf供参考，此链接指向一篇文档，其中文名称为200。

脸书研发出一种人工智能算法，该算法能够在即时状态下学会玩扑克，https://venturebeat.com/2020/07/28/facebook-develops-ai-algorithm-that-learns-to-play-poker-on-the-fly/ 。

Facebook德州扑克AI大比分击败顶尖人类选手，人类玩德州扑街了？

德州扑克游戏规则全知道，教你轻松上手

扑克董事协会发布最新规则草案供玩家关注

德州扑克游戏规则全知道，教你轻松上手

扑克董事协会发布最新规则草案供玩家关注

dxjj

Related posts

北京推出大众扑克赛事 探索全民健身新路径

牌似人生：德州扑克所蕴含的人生道理启示

吴世春谈投资之道：如德州牌局，待人和善方能抓住良机

北京推出大众扑克赛事探索全民健身新路径