在大模型与通用人工智能(AGI)的研究中,存在一个极其反直觉的“能力倒挂”现象:
- 在《王者荣耀》(Honor of Kings)中: 结合腾讯提出的 TiG(Think-In-Games)决策框架,大语言模型(LLM)在宏观决策、出装策略、兵线运营上的准确率可以达到 90% 以上,展现出卓越的战略规划能力。
- 在最新的 ARC-AGI-3(Abstraction and Reasoning Corpus)交互式推理基准中: 面对 $64 \times 64$ 的像素格子小游戏,各大顶尖大模型(包括 GPT-5 系列、Gemini 3 系列、Claude 4 系列)的得分全军覆没,几乎全部低于 1%。
一个是高动态、多智能体、瞬息万变的 3D 竞技大作,一个是看似简单的二维网格推理解谜。为什么大模型在这两个战场表现出如此天差地别?
📊 一、 核心多维对比
| 评估维度 | 《王者荣耀》决策机制 | ARC-AGI-3 交互式推理 |
|---|---|---|
| 底层核心挑战 | 宏观状态的多维组合与长周期策略规划。 | 零样本(Zero-shot)下的全新归纳推理、概念抽象与实时试错。 |
| 数据环境 | 互联网拥有数以亿计的攻略、国服流派演走向、技能机制说明。 | 每一个关卡都是全网从未出现过的、逻辑迥异的全新网格交互。 |
| 规则感知模式 | 静态且已知。 技能伤害公式、推塔收益、野怪刷新时间等参数是写死的。 | 隐藏且动态。 模型必须在摸索中自己归纳出:这关的规则是“变色”、是“镜像”还是“重力下落”? |
| 认知系统调用 | System 1 + 扩展的 System 2(背书 + 框架剪枝)。 | 纯粹的 System 2(完全依赖在线推理与物理模型重构)。 |
| LLM 实际表现 | 宏观策略比肩职业选手,微操可通过 API 或专用小模型辅助。 | 哪怕给长思维链(CoT)反复自我反思,依然陷入卡死或复读。 |
🧠 二、 为什么大模型能称霸《王者荣耀》?
大模型能在《王者荣耀》中大放异彩,并不意味着它具备了真正的“人类游戏直觉”,而是因为它的架构完美契合了复杂游戏的多阶段决策降维:
1. 互联网全量知识的“开卷考试”
大模型的预训练数据中,包含了全网最顶级的英雄出装、克制关系、阵容搭配和转线教学(例如:“面对兰陵王需要出肉装提防”、“几分几秒应该去开暴君”)。当大模型在游戏中读取当前的文字版局势(State)时,它本质上是在做海量攻略的语义匹配和检索。
2. 静态规则下的长周期规划(Long-horizon Planning)
在腾讯 TiG 等框架下,游戏内的底层微操(比如闪现躲技能、精准放指向性技能)通常被交给底层的强化学习小模型(如 PPO 训练的 Action 网络)去执行;而 LLM 则专门扮演主教练/军师的角色。由于《王者荣耀》的赢球逻辑(推塔)和基础数值是恒定不变的,LLM 只需要发挥其长文本的上下文能力,做好宏观局势分析即可,这正中其下怀。
🕳 三、 为什么大模型在 ARC-AGI-3 惨遭滑铁卢?
ARC-AGI-3 是弗朗索瓦·肖莱(François Chollet)为了测试 AI 是否具备“真智能”而专门设计的终极考场。它彻底扒掉了大模型的“作弊外衣”:
1. 预训练知识的“全面熔断”
ARC-AGI-3 中的每个任务都刻意绕开了人类语言和既有的游戏概念。比如它会给出一个示例:
蓝格子在红格子左边时,绿格子变成两个; 紧接着要求你在一个全新的输入网格中,通过用鼠标点击、尝试、观察格子反馈,来自己猜出这关的过关规则。
这里没有攻略可查,大模型脑子里的万亿级语料在这一刻直接变成了白纸。
2. Transformer 架构的硬伤:无法实时写入“新物理模型”
当人类玩 ARC-AGI-3 时,我们先点一下屏幕,发现格子动了,我们会立刻在脑海里建立一个临时的物理模型:“哦!这个小块是有重力的。”如果下一次点击推翻了这个假设,我们会立刻修正脑海中的模型。
但大模型(Transformer)的知识是固化在模型权重中的。在推理(Inference)阶段,即便给它长思维链(CoT)进行反思,它也只能在 Context Window(上下文窗口)里像写流水账一样去模拟这个过程。它无法真正做到在交互中“实时学习、实时纠错、实时收敛出一个新的认知系统”。
📝 总结:向着真正的 AGI 演进
这个悖论告诉我们:
现阶段大模型表现出来的“强大”,很大程度上来源于对人类已有知识库的超大规模高效模仿与组合。
玩转《王者荣耀》证明了大模型在已有复杂规则和丰富数据下的策略泛化极限;而折戟 ARC-AGI-3 则揭示了 AGI 真正的必经之路——AI 必须学会如何在 数据贫瘠、规则未知、没有参考答案的全新环境中,像人类幼崽一样通过“自发探索 ➡️ 失败反思 ➡️ 建立新认知” 的闭环去解决问题。这也是未来如 R1 等推理模型下一阶段必须要攻克的终极圣杯。
Leave a comment