
德扑新手必看!如何让读牌更准确?线上德州扑克教学揭秘
2026年1月22日
德州手游All in推出的最佳时机,你知道是什么时候吗?
2026年1月22日清华唐杰新作:大模型能打掼蛋吗?

量子位量子位官方账号2025.09.1018:01

时令 发自 凹非寺
量子位 | 公众号 QbitAI
大模型能打掼蛋吗?
这是清华唐杰的最新论文。
清华AI团队联合研究显示,北邮AI团队亦参加其中智谱AI团队也有参与博世AI团队同样加入,研究表明大模型不仅具备打掼蛋的能力,另外还会打麻将,也会打德州扑克,还会玩Uno,且能玩其他8种棋牌。
不同的模型在不同棋牌类型上的表现也不同:
有5种基于API的模型,其中GPT-4o在综合表现方面所呈现出的状况是最佳的,然而,在斗地主这项活动上,却比GLM-4-plus稍微弱一些。
在三类微调模型里头,GLM4属于牌桌上那种啥都会的厉害角色,不管是斗地主,还是掼蛋,又或者是Uno,它都完全能应对。
Llama3.1更像是那种偏向于专门钻研某些特定领域的“冷门行家”模样啦,于立直麻将里展现出突出表现的时候有,在无限注德扑当中呈现优越状况之际也有,只是呢,其于斗地主、掼蛋这类游戏里面,和GLM4对比起来,稍微差那么一些了。
需留意的是,当模型学会打牌之际,其通用能力或许会稍有降低,不过只要增添一定数量的通用数据,此问题便可得以缓解。
难道是玩游戏玩的不会学习了?
所以大模型是如何一下学会这么多游戏的?
轻松掌握8种棋牌游戏
此游戏选择之时,研究团队凭借受欢迎程度,以及复杂性,还有高质量模型与数据的可获得性,从中挑选出了8款纸牌游戏,。
有斗地主,有掼蛋,有立直麻将,有Uno,有金拉米,有Leduc扑克,有限注德州扑克,还有无限注德州扑克。
首先从博弈论的角度来看,这些游戏都属于非完全信息多人博弈。
简而言之呢,是游戏里存在着多个玩家,每一个“玩家”都没办法看到别的玩家的手牌,而且初始手牌以及牌堆是随机进行发放的。
在并非完美信息的那种游戏里,鉴于信息呈现出不完全、非对称的状况,就像扑克这种游戏以及麻将这种游戏当中,对手所拥有的手牌以及游戏剩余的底牌都是处于未知的情形,所以对于参与游戏的那些人而言,好多不一样的游戏状态看上去是没办法加以区分的。
在二零二三年,腾讯人工智能实验室针对打麻将提出了一种技术,该技术基于强化学习,并且基于遗憾值最小化,还是一种自我博弈技术。
这致使AI能够从毫无基础的状态开始,凭借自身展开学习,进而实现能力的提升,并且最终会收敛至一种最为强大的混合策略。
因为传统的非完美信息搜索算法,在麻将场景下,很难展现出较大作用,所以研究人员,基于乐观价值估计的思想,提出了一种高效的非完美搜索方法,借助于此,AI能够在拥有海量隐藏信息的游戏状态里,实施实时性的策略调整,因而能更好地应对繁杂多变的战局 。
但是这一回,研究的团队挑选采用现有的强大游戏人工智能来生成高质量的轨迹方面的数据,并且让大语言模型凭借学习这些数据去掌握复杂的游戏。
游戏基础,学习方法就不基础。
首先,研究团队促使教师模型同对手展开对抗,进而生成游戏交互数据。每一场游戏要依据实际情形,分别配备对应的教师模型以及对手。
(需要注意的是,麻将没有教师模型。)
其次,鉴于不同游戏存在着复杂程度上的差异,从而导致每种游戏的对局次数呈现出不一样的状况,斗地主的平均步数显著高于其他游戏,掼蛋这般,麻将亦是如此。
特别是掼蛋以及麻将的步数更为延长,这是由于它们的对局从本质上来说是经由多个回合所组成的。
像掼蛋这种游戏,它要求玩家要从2开始,一直升级到A才能获胜,其游戏进程比较长,所以必然需要更多的回合。
研究团队依据不同游戏的复杂度,设计了一套相当契合实际情况的数据采集方案,其中斗地主玩法较为复杂,收集了100万个训练实例,掼蛋玩法也复杂,又收集了100万个训练实例,立直麻将玩法相对复杂,同样收集了100万个训练实例,而其余5款游戏,每款都采样40万个。
后来,团队针对三种不一样类型的模型,也就是 Qwen2.5 – 7B、Llama3.1 – 8B 以及 GLM4 – 9B,展开微调操作,从而去分析模型类型对于性能所产生的影响,。
同一时间,他们还针对参数规模处于从0.5B至14B范围的Qwen2.5展开微调,目的是评估模型规模对于性能所产生的影响。
在评估指标这块儿,不一样的游戏运用了不一样的胜率度量办法:斗地主采用的是绝对胜率,掼蛋采用的是轮次胜率,其余六种游戏用的是奖励分数。
有结果显示,随训练数据量增多,大模型于斗地主里的表现,以及在掼蛋中的表现,渐渐靠近教师模型,颇有那么一种“青出于蓝”的意思在里头,。
至于麻将,就算根本不存在能使用的教师模型,大模型却还是达成了跟一款顶级麻将 AI 表现相当的情况,。
除了这个以外,进行研究的人员还观察到了,在以斗地主为场景的情况下,GLM的性能显著地比不上Qwen以及Llama,出现这种情况的原因是什么呢?
团队为了去分析不同模型于斗地主里的差异,接着进一步绘制了模型处在扮演不同角色之际的胜率。
能够看得出,GLM于扮演地主期间展现出的表现要比Qwen以及Llama更为出色,然而在扮演农民的时候,其表现却是比较差的。
这显示出,GLM没能有效地对两个角色之间的学习予以平衡,更多地将注意力集中在了地主角色上,进而致使农民的表现较为薄弱。
那为什么会出现这种差异呢?
原因是在进行数据过滤时,研究团队只保留了获胜方的数据。
斗地主里,存在一名地主跟两名农民,在农民取得胜利之际,双方的数据均会得以保留,可然而,好多情形下,胜利或许主要取决于里面一名农民的操作,而另外一名农民的数据质量是比较低的。
所以,训练数据里存有一些质量欠佳的农民角色方面的数据,致使农民角色的呈现远比不上其理论上所能达到的最高水准模样。 。
基于上述实验,研究团队大致确定了每种游戏收敛所需的数据量。
接着,他们依据这一数据量,从各类游戏的训练数据集合里展开采样,随后把数据予以合并,进而得到一个涵盖所有游戏数据的混合训练集合。
特别说明一下,这个组合而成的数据集当中具有三百一十万条数据,其中,八种游戏对应的具体数据量依次是,七十万,九十五万,六十五万,二十万,五万,二十五万,二十万以及十万 。
在此基础之上,研究人员针对语言模型开展混合训练微调工作,借此评估它能不能同时掌握多种游戏,随后把微调之后的模型跟基于API的模型以及基础模型进行对比 。
结果呈现出来,表明所有倚仗 API 的模型,于两款最为复杂的游戏,也就是掼蛋以及麻将之上,其得分是相对较低的德信竞技,然而在其他的 6 款游戏上面,得分是比较高的。
要特意指出的是,于5种API模型里,GPT – 4o展现出最为出色的表现,它在多数游戏当中获取到了最高的分数。
GLM的模型在斗地主里得分较高,原因或许有,它“从小耳濡目染”,对这款国民级游戏更“门儿清”,DeepSeek的模型在斗地主中的成绩也是如此 。
相比于基于 API 的模型,展现出最差表现的是 3 种基础模型,且是在大多数游戏之中 。
与其他情况相比较而言,经过微调之后的模型展现出最为出色的表现,特别是在斗地主这款游戏当中,在掼蛋这款游戏里面,以及在日本立直麻将这款游戏之中,其提升呈现出最为显著的状况。
其中,3种微调模型在Leduc扑克上得分相同。
然而,从综合方面去审视,GLM4 – 9B – Chat – mix展现出来情况最为超群,于斗地主这项活动范围内属于首位,在掼蛋这个项目领域处于榜首,针对Uno而言位居第一,就金拉米来讲位列首位,在Leduc扑克之中排名第一,对于限注德州扑克来说也是占据首位,。
Llama3点1减8B指令混合对此最擅长者是,Uno、Leduc扑克以及无限德州扑,然而,Qwen2点5减7B-Instruct该指令混合的表现则相对比较弱些。
为了能更深入地探究不同游戏之间所存在的相互影响之处,研究团队把仅在单一游戏上进行微调操作的模型,于其余7种游戏之上开展了评估活动。
能够发现,相较于在别的游戏之上进行训练的模型,在掼蛋上开展训练的模型于斗地主方面的表现亦是良好的,这意味着掼蛋对于斗地主有着积极的促进作用。
另外,则是,Leduc扑克这款游戏,与限注德扑这款游戏,以及无限注德扑这款游戏,这三款游戏相互之间,也是存续着正向的影响的。
然后,团队又将那种仅仅是在单个游戏方面进行细微调整的模型,以及在全部游戏上进行混合式细微调整的模型,开展了对比 。
有这样的结果被发现,就是比起仅仅单独进行微调所形成的模型而言,那种混合微调的模型,在这两款游戏上面的表现,有了进一步的提升。
互相切磋完牌技就是不一样。
然而,有意思的是,相较于单独进行微调的模型,混合微调的模型在另外6款游戏上的表现出现了降低,这表明,斗地主,掼蛋以及另外6款游戏之间存在着一定的冲突。
鉴于这一情况,在大模型已然能够同时把控多种复杂棋牌游戏的情形之下,规则相近的游戏彼此之间会相互强化表现,然而规则差别明显较大的游戏则有可能出现性能方面的冲突。
那大模型会打牌之后,它的通用能力会不会有什么变化呢?
关于这一问题,团队于知识问答(MMLU – Pro)方面开展了测试,在数学(Math – 500)范畴进行了测试,于编程能力(HumanEval)领域进行了测试。
致使发觉,于全部游戏之上进行微调的那种混合模型,其具备的通用能力产生了明显的下落。
值得欣喜的消息乃是,团队再度运用通用数据针对游戏模型展开微调,模型的通用能力据此在某种程度上得以恢复。
这下是既能打牌又能学习了。
可供参考的链接是,https://arxiv.org/abs/2509.01328 。


