人工智能再次击败人类玩家

德州扑克玩家风格分析：你是什么样的玩家？

2026年1月15日

德州扑克必赢打法和技巧，你知道几个？

2026年1月15日

Published by dxjj on 2026年1月15日

Tags

在下棋，在玩游戏，于跟人类的博弈当中，人工智能也就是AI，正在持续成长。近日，英国DeepMind公司的AI智能体DeepNash，就在西洋陆军棋也就是Stratego里，达到了专业级人类玩家的水准。该成果于12月1日发表在了《科学》上。

实际上，于 DeepNash 攻克 Stratego 之前，便有报道称人工智能能够玩“强权外交”这款与之类似的经典桌游。这是一款具备外交深度的游戏，玩家之间存在着合作与竞争的关系，在必要的时候必须借助谈判去结交盟友。

Michael Wellman表示，近年来，AI掌握那种本质不一样的游戏的速度是相当惊人的。Stratego这款游戏与，这款“强权外交”的游戏截然不同。而它们两者都极具挑战性，二者与此前AI已经掌握的游戏也完全不一样。

一款需在信息缺失状况下展开战略思考的棋盘游戏Stratego，它类似于中国的军棋，它要比此前AI所掌握的国际象棋复杂得多，它要比此前AI所掌握的围棋复杂得多，它要比此前AI所掌握的扑克复杂得多。

于游戏里，双方各自有着40枚棋子，并且彼此没办法看到棋子真正的“身份”。双方按顺序轮流去移动棋子，以此来消灭对手的棋子，最终能够夺得对方军旗或者消灭全部能动的棋子的那一方会获胜。所以，玩家需要开展战略部署，去收集信息，还要与对方进行博弈。

一局Stratego游戏里，存在着10535种可能出现的布局，与之相比，围棋的布局有10360种可能，除此之外，在Stratego当中，AI需要去推理对手超过1066种部署策略，这让德州扑克里初始的106种可能情况显得微不足道。

迪普Mind研究员朱利安·佩罗拉特称，“斯特拉泰戈中有可能出现的结果数量繁多，并且其具备复杂性，这表明，在信息全然的游戏里表现优异的算法，乃至在扑克游戏中表现不错的算法，在这款游戏当中都无法发挥作用。”。

所以，Perolat以及同事研发出了DeepNash，这个命名是向提出纳什均衡的美国数学家约翰·纳什表达敬意。

纳什均衡在博弈论里是一种解的概念，它所指的是这样的策略组合，即任何一位玩家，在这个策略组合下，当其他玩家策略保持不变时，单方面去改变自己的策略，都不会使得自身的收益得到提高。

DeepNash把强化学习算法跟深度神经网络结合起来，目的是找出纳什均衡，强化学习涵盖为游戏的每个状态寻觅最佳策略，要学习最佳策略，DeepNash同自己展开了55亿次博弈。

DeepNash于今年4月，在网络游戏平台Gravon上，和人类Stratego玩家展开了为期两周的比赛，在历经50场比赛之后，DeepNash当前于所有Gravon Stratego玩家里位列第三。

Karl Tuyls这个团队成员、DeepMind研究员，这样讲道，“这算得上是AI跨出的一大步。”且提出，“我们所开展的研究显示出，类似于Stratego这般带有不完善信息状况的复杂游戏，并不需要借助搜索技术去进行解决。”。

然而，曾经在2019年的时候，报告了专门玩扑克的AI，也就是Pluribus的Meta AI研究员Noam Brown所在团队，把注意力转向了一个不一样的挑战德信竞技，那就是构建一个能够玩“强权关系交往”的AI 。

参与人数最多为7位玩家的“强权外交”游戏，每位玩家象征第一次世界大战前欧洲的主要力量，其游戏目标在于借助移动部队掌控供应中心，关键是，此游戏需玩家间展开私人交流与合作，并非如围棋或Stratego那般进行双人博弈。

Brown宣称，当零和博弈的参与人数超过两人时，纳什均衡思想便不再对游戏具备效用了。他们成功训练出了名为Cicero的AI。在11月22日发表于《科学》的那篇论文里，该团队汇报称，在40场游戏中，Cicero的平均得分比人类玩家的两倍还要多，在玩过一场以上游戏的参与者里处于前10%的 ranking 。

Brown觉得，那种能够跟人类相互作用，并且对次优乃至非理性的人类行为作出解释的游戏AI，能够为它在现实世界里的运用开拓道路。（徐锐）。

人工智能再次击败人类玩家

德州扑克玩家风格分析：你是什么样的玩家？

德州扑克必赢打法和技巧，你知道几个？

德州扑克玩家风格分析：你是什么样的玩家？

德州扑克必赢打法和技巧，你知道几个？

dxjj

Related posts

北京推出大众扑克赛事 探索全民健身新路径

牌似人生：德州扑克所蕴含的人生道理启示

吴世春谈投资之道：如德州牌局，待人和善方能抓住良机

北京推出大众扑克赛事探索全民健身新路径