什么？ LLM 能玩转《王者荣耀》，却在 ARC-AGI-3 全军覆没？

在大模型与通用人工智能（AGI）的研究中，存在一个极其反直觉的“能力倒挂”现象：

在《王者荣耀》（Honor of Kings）中： 结合腾讯提出的 TiG（Think-In-Games）决策框架，大语言模型（LLM）在宏观决策、出装策略、兵线运营上的准确率可以达到 90% 以上，展现出卓越的战略规划能力。
在最新的 ARC-AGI-3（Abstraction and Reasoning Corpus）交互式推理基准中： 面对 $64 \times 64$ 的像素格子小游戏，各大顶尖大模型（包括 GPT-5 系列、Gemini 3 系列、Claude 4 系列）的得分全军覆没，几乎全部低于 1%。

一个是高动态、多智能体、瞬息万变的 3D 竞技大作，一个是看似简单的二维网格推理解谜。为什么大模型在这两个战场表现出如此天差地别？

📊 一、核心多维对比

评估维度	《王者荣耀》决策机制	ARC-AGI-3 交互式推理
底层核心挑战	宏观状态的多维组合与长周期策略规划。	零样本（Zero-shot）下的全新归纳推理、概念抽象与实时试错。
数据环境	互联网拥有数以亿计的攻略、国服流派演走向、技能机制说明。	每一个关卡都是全网从未出现过的、逻辑迥异的全新网格交互。
规则感知模式	静态且已知。技能伤害公式、推塔收益、野怪刷新时间等参数是写死的。	隐藏且动态。模型必须在摸索中自己归纳出：这关的规则是“变色”、是“镜像”还是“重力下落”？
认知系统调用	System 1 + 扩展的 System 2（背书 + 框架剪枝）。	纯粹的 System 2（完全依赖在线推理与物理模型重构）。
LLM 实际表现	宏观策略比肩职业选手，微操可通过 API 或专用小模型辅助。	哪怕给长思维链（CoT）反复自我反思，依然陷入卡死或复读。

🧠 二、为什么大模型能称霸《王者荣耀》？

大模型能在《王者荣耀》中大放异彩，并不意味着它具备了真正的“人类游戏直觉”，而是因为它的架构完美契合了复杂游戏的多阶段决策降维：

1. 互联网全量知识的“开卷考试”

大模型的预训练数据中，包含了全网最顶级的英雄出装、克制关系、阵容搭配和转线教学（例如：“面对兰陵王需要出肉装提防”、“几分几秒应该去开暴君”）。当大模型在游戏中读取当前的文字版局势（State）时，它本质上是在做海量攻略的语义匹配和检索。

2. 静态规则下的长周期规划（Long-horizon Planning）

在腾讯 TiG 等框架下，游戏内的底层微操（比如闪现躲技能、精准放指向性技能）通常被交给底层的强化学习小模型（如 PPO 训练的 Action 网络）去执行；而 LLM 则专门扮演主教练/军师的角色。由于《王者荣耀》的赢球逻辑（推塔）和基础数值是恒定不变的，LLM 只需要发挥其长文本的上下文能力，做好宏观局势分析即可，这正中其下怀。

🕳 三、为什么大模型在 ARC-AGI-3 惨遭滑铁卢？

ARC-AGI-3 是弗朗索瓦·肖莱（François Chollet）为了测试 AI 是否具备“真智能”而专门设计的终极考场。它彻底扒掉了大模型的“作弊外衣”：

1. 预训练知识的“全面熔断”

ARC-AGI-3 中的每个任务都刻意绕开了人类语言和既有的游戏概念。比如它会给出一个示例：

蓝格子在红格子左边时，绿格子变成两个；紧接着要求你在一个全新的输入网格中，通过用鼠标点击、尝试、观察格子反馈，来自己猜出这关的过关规则。

这里没有攻略可查，大模型脑子里的万亿级语料在这一刻直接变成了白纸。

2. Transformer 架构的硬伤：无法实时写入“新物理模型”

当人类玩 ARC-AGI-3 时，我们先点一下屏幕，发现格子动了，我们会立刻在脑海里建立一个临时的物理模型：“哦！这个小块是有重力的。”如果下一次点击推翻了这个假设，我们会立刻修正脑海中的模型。

但大模型（Transformer）的知识是固化在模型权重中的。在推理（Inference）阶段，即便给它长思维链（CoT）进行反思，它也只能在 Context Window（上下文窗口）里像写流水账一样去模拟这个过程。它无法真正做到在交互中“实时学习、实时纠错、实时收敛出一个新的认知系统”。

📝 总结：向着真正的 AGI 演进

这个悖论告诉我们：

现阶段大模型表现出来的“强大”，很大程度上来源于对人类已有知识库的超大规模高效模仿与组合。

玩转《王者荣耀》证明了大模型在已有复杂规则和丰富数据下的策略泛化极限；而折戟 ARC-AGI-3 则揭示了 AGI 真正的必经之路——AI 必须学会如何在 数据贫瘠、规则未知、没有参考答案的全新环境中，像人类幼崽一样通过“自发探索 ➡️ 失败反思 ➡️ 建立新认知” 的闭环去解决问题。这也是未来如 R1 等推理模型下一阶段必须要攻克的终极圣杯。

Share on

X Facebook LinkedIn Bluesky

什么？ LLM 能玩转《王者荣耀》，却在 ARC-AGI-3 全军覆没？

Weiqing Liu

📊 一、核心多维对比

🧠 二、为什么大模型能称霸《王者荣耀》？

1. 互联网全量知识的“开卷考试”

2. 静态规则下的长周期规划（Long-horizon Planning）

🕳 三、为什么大模型在 ARC-AGI-3 惨遭滑铁卢？

1. 预训练知识的“全面熔断”

2. Transformer 架构的硬伤：无法实时写入“新物理模型”

📝 总结：向着真正的 AGI 演进

Share on

Leave a comment

You may also enjoy

免费的暗中标价：中外“世界杯竞猜”的逻辑碰撞

大模型经济学：从航运与钢铁的周期宿命，看AI算力的“低PE泡沫”终局

如何以“解耦”思维应对集体意识的霸凌

Next.js 架构深水区：破解动态传染、客户端边界与 Server Actions 革命

什么？ LLM 能玩转《王者荣耀》，却在 ARC-AGI-3 全军覆没？

Weiqing Liu

📊 一、 核心多维对比

🧠 二、 为什么大模型能称霸《王者荣耀》？

1. 互联网全量知识的“开卷考试”

2. 静态规则下的长周期规划（Long-horizon Planning）

🕳 三、 为什么大模型在 ARC-AGI-3 惨遭滑铁卢？

1. 预训练知识的“全面熔断”

2. Transformer 架构的硬伤：无法实时写入“新物理模型”

📝 总结：向着真正的 AGI 演进

Share on

Leave a comment

You may also enjoy

免费的暗中标价：中外“世界杯竞猜”的逻辑碰撞

大模型经济学：从航运与钢铁的周期宿命，看AI算力的“低PE泡沫”终局

如何以“解耦”思维应对集体意识的霸凌

Next.js 架构深水区：破解动态传染、客户端边界与 Server Actions 革命

📊 一、核心多维对比

🧠 二、为什么大模型能称霸《王者荣耀》？

🕳 三、为什么大模型在 ARC-AGI-3 惨遭滑铁卢？