
德州扑克玩家风格分析:你是什么样的玩家?
2026年1月15日德州扑克必赢打法和技巧,你知道几个?
2026年1月15日在下棋,在玩游戏,于跟人类的博弈当中,人工智能也就是AI,正在持续成长。近日,英国DeepMind公司的AI智能体DeepNash,就在西洋陆军棋也就是Stratego里,达到了专业级人类玩家的水准。该成果于12月1日发表在了《科学》上。
实际上,于 DeepNash 攻克 Stratego 之前,便有报道称人工智能能够玩“强权外交”这款与之类似的经典桌游。这是一款具备外交深度的游戏,玩家之间存在着合作与竞争的关系,在必要的时候必须借助谈判去结交盟友。
Michael Wellman表示,近年来,AI掌握那种本质不一样的游戏的速度是相当惊人的。Stratego这款游戏与,这款“强权外交”的游戏截然不同。而它们两者都极具挑战性,二者与此前AI已经掌握的游戏也完全不一样。
一款需在信息缺失状况下展开战略思考的棋盘游戏Stratego,它类似于中国的军棋,它要比此前AI所掌握的国际象棋复杂得多,它要比此前AI所掌握的围棋复杂得多,它要比此前AI所掌握的扑克复杂得多。
于游戏里,双方各自有着40枚棋子,并且彼此没办法看到棋子真正的“身份”。双方按顺序轮流去移动棋子,以此来消灭对手的棋子,最终能够夺得对方军旗或者消灭全部能动的棋子的那一方会获胜。所以,玩家需要开展战略部署,去收集信息,还要与对方进行博弈。
一局Stratego游戏里,存在着10535种可能出现的布局,与之相比,围棋的布局有10360种可能,除此之外,在Stratego当中,AI需要去推理对手超过1066种部署策略,这让德州扑克里初始的106种可能情况显得微不足道。
迪普Mind研究员朱利安·佩罗拉特称,“斯特拉泰戈中有可能出现的结果数量繁多,并且其具备复杂性,这表明,在信息全然的游戏里表现优异的算法,乃至在扑克游戏中表现不错的算法,在这款游戏当中都无法发挥作用。”。
所以,Perolat以及同事研发出了DeepNash,这个命名是向提出纳什均衡的美国数学家约翰·纳什表达敬意 。
纳什均衡在博弈论里是一种解的概念,它所指的是这样的策略组合,即任何一位玩家,在这个策略组合下,当其他玩家策略保持不变时,单方面去改变自己的策略,都不会使得自身的收益得到提高。
DeepNash把强化学习算法跟深度神经网络结合起来,目的是找出纳什均衡,强化学习涵盖为游戏的每个状态寻觅最佳策略,要学习最佳策略,DeepNash同自己展开了55亿次博弈。
DeepNash于今年4月,在网络游戏平台Gravon上,和人类Stratego玩家展开了为期两周的比赛,在历经50场比赛之后,DeepNash当前于所有Gravon Stratego玩家里位列第三。
Karl Tuyls这个团队成员、DeepMind研究员,这样讲道,“这算得上是AI跨出的一大步。”且提出,“我们所开展的研究显示出,类似于Stratego这般带有不完善信息状况的复杂游戏,并不需要借助搜索技术去进行解决。”。
然而,曾经在2019年的时候,报告了专门玩扑克的AI,也就是Pluribus的Meta AI研究员Noam Brown所在团队,把注意力转向了一个不一样的挑战德信竞技,那就是构建一个能够玩“强权关系交往”的AI 。
参与人数最多为7位玩家的“强权外交”游戏,每位玩家象征第一次世界大战前欧洲的主要力量,其游戏目标在于借助移动部队掌控供应中心,关键是,此游戏需玩家间展开私人交流与合作,并非如围棋或Stratego那般进行双人博弈。
Brown宣称,当零和博弈的参与人数超过两人时,纳什均衡思想便不再对游戏具备效用了。他们成功训练出了名为Cicero的AI。在11月22日发表于《科学》的那篇论文里,该团队汇报称,在40场游戏中,Cicero的平均得分比人类玩家的两倍还要多,在玩过一场以上游戏的参与者里处于前10%的 ranking 。
Brown觉得,那种能够跟人类相互作用,并且对次优乃至非理性的人类行为作出解释的游戏AI,能够为它在现实世界里的运用开拓道路。(徐锐)。
相关论文信息:
这是一个网址链接,其中https代表超文本传输安全协议,doi表示数字对象标识符,10.1126是具体代码,science是该科学平台相关标识。

