
德州扑克信息、视频、现场活动
2025年12月31日德州扑克策略:基本绘图方法
2025年12月31日完美信息博弈和不完美信息博弈
其一,为何AI在德州扑克上打败人类并非易事呢?其二,德州扑克与围棋对于AI而言究竟存在着怎样的区别呢?其三,首先,需领会完美信息博弈(棋牌类游戏)以及不完美信息博弈(扑克类游戏)之间的区别。
后行动的参与者能够观测到先行动的参与者的行动信息,这种情况被称作完美信息博弈,像棋牌类游戏,双方的信息是共享的,例如围棋,双方都能看到场上已经下过的棋子,以及双方各自的优势与劣势,。
然而,对于扑克、谈判、商业决策这类问题而言,双方之间的信息并不会公开给予对方,也就是说,当参与者进行选择之际德信竞技,并不清楚其他参与者的选择情况,如此便被称作不完美信息博弈。
别的参与者的行动,被理解成一个参与者做决策时所遭遇的环境,简言之,信息不完美,换句话讲,就是决策者不清楚自己处于在哪样的决策环境之中,这就是信息不完美的含义。
德州扑克面前,就算敌手将全部筹码(all in),我们依旧没法确切知晓其手中底牌究竟是啥,信息不对称状况下,这便使得大家都需要具备“赌一把”的那股精神,。
这也是为什么金融人士和投资大佬们都喜欢玩德州扑克。
运用理工类的思维,来讲述一下AI究竟是凭借何种方式,在完美信息博弈类游戏当中战胜人类的 , 。
围棋游戏属于一场零和完美信息博弈,于任何时刻,双方玩家皆知晓前面游戏的全部状态,此为完美信息,而且在有限步数之后游戏结果非胜即负,这是零和。因知晓游戏有限状态,计算机得以借助暴力枚举方法计算后面所有可能下法,进而形成一颗巨大搜索树,这搜索树能列举当前状态下所有可能下法,每个子搜索树皆可独立求解,基于此计算机能依据计算结果安排对应策略,最终达成胜利 。
比如说,就像,小明是个在普通中国家庭成长起来的小孩子,在他的一生当中,会面临好多选择,那怎样才能够在未来迈向人生的巅峰呢?要是能够罗列出他未来全部的可能性,将每一步的选择拆分成“子未来”,如此一来就能够算出成功胜算最大的那个选择了。(所举例子或许不太合适,领会意思就行,嘻嘻)。

小明同学的人生探险

电脑:“我压力太大了,哇的一声炸开花”
因此,科学家们借助某些剪枝、搜索这般的算法籍此缩减计算范畴,进而于有限之时间内找出最优策略。
不完美信息博弈类游戏
终于讲到了今天的主角, 德州扑克。
德州扑克属于典型的不完美信息博弈类游戏,其策略设置里存在隐藏信息,这类模型有大量应用场景,像谈判、拍卖等,不完美信息博弈无法像完美信息博弈那样经分解来求解,因为一个子博弈的最佳策略可能依存于其他尚未获取的子博弈的策略与输出。
也就是说,没法凭借预测对方下注的数量进而猜到对方手中持有的牌是怎样的,原因在于或许对方的牌并非优质,然而他借助下注来欺骗你,致使你作出弃牌的选择。所以,此事对于没什么心机的计算机而言是颇为困难的,对手在第一手就选择了全押,可是他的牌究竟好不好呢?
因此,当我目睹AI在德州方面也战胜了人类,心里还略微有那么一点儿小激动,或许在未来,机器人能够拥有女人的第六感了。
那AI到底是如何打败人类的呢?
很多难以理解,就连自己也不太明白的算法,在论文里有所提及,为了便于理解,我们借助一个简单的博弈模型来举例,尝试去理解聪明的AI 。
我们来设计一个简单的游戏。
游戏玩家存在A与B两个人,A能够进行一次抛硬币的行为,硬币的正面或者反面只有A自己能够看到,在抛完硬币之后,A拥有两个可供选择的情况,其一为sell,也就是卖掉硬币,其二为play,即和B玩游戏 。
①A选择了sell:
②A做出了play的选择,于是游戏得以继续进行,紧接着,便轮到B去猜测硬币究竟是落在正面这一面,还是反面那一面 。

此时,对于B来讲,这是一个并非完美的博弈,他没办法凭借A选择play,进而判断A手中的硬币究竟是正面还是反面。
在这个时候,现存在着两种极限状况,要是B始终都去猜正面,那么具备聪明特质的A就会对自身的策略作出改变,当A把硬币抛到正面的情形下,他就会将硬币卖掉,要是抛到反面的时候,他才会参与游戏,如此一来,B注定是会输的。在这个当下,A的期望分数呈现为:
零点五,也就是抛到正面的概率,乘以零点五,此为选择sell的得分,再加上零点五,即抛到反面的概率,乘以一,这是选择play的得分,结果等于零点七五 。
要是B老是去猜反面,那当A抛到正面之际就会作出选择play的举动,从而得到一元钱;而若是A抛到反面,就会选择sell来把硬币给卖掉,如此这样只会损失五毛钱。所以A的期望是:
有一个概率,抛到正面的概率是0.5 ,对于选择play ,其得分是1 ,还存在另一个概率,抛到反面的概率是0.5 ,而选择sell的得分是 -0.5 ,将这两个概率分别对应的得分情况进行计算,即0.5乘以1加上0.5乘以 -0.5 ,结果等于0.25 。
此刻,有一个知识点冒了出来,它称作纳什均衡,也就是说,对于B来讲,为了能够切实有效地降低损失,其最为有效的策略便是,以0.25的概率去猜正面,辅以0.75的概率来猜反面,如此这般便能够确保他获取到最大的胜算。
博弈始终是个动态的过程,倘若B一直依循固有的策略去做决策,那么A也会依据B的决策结果来调整自身的策略。故而,对B而言最安全的办法便是持续更新A卖掉硬币所能获取的回报,不断开展寻找最优解的行动。
牌友们押注带来的回报期望经这样的方法被我们聪明的计算机动态计算,进而“持续更新对手的套路”,最终获得了「比赛过程中,人类选手整体上从未领先过」的效果 。
看来,要是想跟AI进行斗智,人类那小小的脑筋或许得转动得更为快速才行,也许不存在套路反而是最大的套路。
所有人都讲金融领域的大佬们都喜好玩德州,在看完这篇文章之后,金融领域的大佬们到底会不会有一些受到启发的情况呢?


