新加坡国立大学等机构打造的游戏AI考场,新加坡国立大学ipa

这项由新加坡国立大学与牛津大学联合开展的研究，发布于2026年4月，以技术报告形式提交至arXiv，编号为arXiv:2604.07429，有兴趣深入了解的读者可通过该编号查阅完整论文。

说到测试一个人是否真的聪明，光靠笔试远远不够。你得看他能不能在复杂、快节奏、充满突发状况的环境里随机应变。道理放到AI身上同样成立。研究团队提出了一个核心问题：如果我们真的想知道那些功能强大的多模态大语言模型（也就是能同时看图、读文字、做推理的AI）到底有多厉害，是不是应该把它们扔进游戏世界里，让它们真刀真枪地打一局？

于是，这个被命名为**GameWorld**的基准测试平台就此诞生——一个专门为AI游戏玩家设计的"考场"，涵盖34款浏览器游戏和170个任务，要求AI在动态变化的画面里做出判断、规划路线、操控角色、完成目标。它的与众不同在于：每一场考试的成绩，都不依赖人的主观判断，而是直接从游戏内部数据里读取，绝对客观，可复现，可验证。

研究团队为这套平台设计了两种不同的"参赛方式"，并邀请了13个主流AI模型上场接受检验，最终形成18组模型与接口的搭配组合。结果颇为耐人寻味——即便是表现最好的AI选手，离一个没有特别准备的普通人类玩家还有相当距离。这不是一个让人沾沾自喜的结论，而是一个清醒的提醒：真实世界的复杂交互，对AI而言依然是一座尚未翻越的高山。

一、为什么游戏是测试AI的理想考场

谈到测试AI能力，学术界已经积累了相当多的方法。有些测试让AI回答问题，有些让AI描述图片，还有些让AI写代码或者翻译文字。这些测试都有一个共同的局限：它们大多是"一问一答"式的，AI给出答案，考试就结束了。但现实世界的任务往往不是这样运作的。

游戏则完全不同。在游戏里，AI必须反复观察当前画面、做出决策、执行操作、再观察画面变化，如此循环，每一步的错误都会影响下一步的处境。这种"看一眼、想一下、做一个动作、再看结果"的循环，和我们人类在现实中解决问题的方式高度相似。更重要的是，游戏结果是即时反馈的——撞墙了就是撞墙了，掉进坑里就是掉进坑里，没有模糊地带。

研究团队特别选择了浏览器游戏作为载体，这背后有很实际的考量。浏览器游戏不需要安装复杂的游戏引擎，重置方便，可以快速启动多个独立实例同时运行，非常适合大规模自动化测试。相比需要模拟器或专用硬件的传统游戏AI研究，这种方式轻量得多，扩展性也更强。

在GameWorld之前，其实已经有一些团队尝试过用游戏来测试AI。比如有的研究只覆盖了6款游戏，有的依赖人工肉眼判断成绩，有的无法区分AI是因为"想得慢"还是"想得差"而输掉比赛。GameWorld针对这些痛点逐一提出了解法，后面我们会详细展开。

二、游戏场馆的34个赛道

GameWorld的游戏库按照玩法类型被分成五大类，每一类都在考验AI的不同能力。

第一大类叫做"跑酷类"，共8款游戏，包括大名鼎鼎的Chrome恐龙跳跃、神庙逃亡2、Flappy Bird等。这类游戏的特点是场景永远在向前推进，AI必须以极高的频率做出反应——跳跃、闪避、转弯，一旦慢了半拍，游戏就结束了。它考验的是AI的"即时反应"能力，类似于人类在高速公路上驾驶时需要的那种快速判断。

第二大类是"街机类"，共7款，比如吃豆人、打砖块、贪吃蛇。这类游戏同样节奏较快，但增加了多个移动实体需要同时追踪的难度——AI不仅要控制自己的角色，还要同时关注多个敌人或目标的位置和动向，就像同时盯着棋盘上多颗棋子一样。

第三大类是"平台跳跃类"，共8款，代表作是马里奥游戏、Vex 3等。这类游戏要求AI对物理规律有精准的理解——跳跃的时机、落点的判断、与平台边缘的距离控制，差一点点就会掉下去，考验的是空间感和精细操控能力。

第四大类是"解谜类"，共7款，包括2048、扫雷、Wordle、俄罗斯方块、Hextris等。这类游戏的节奏慢得多，不要求快速反应，但要求AI能够进行逻辑推理、规划多步棋局、在有限信息下做出最优决策。对于那些以推理能力见长的AI来说，这里是它们最有可能表现出色的领域。

第五大类是"模拟经营类"，共4款，有Minecraft克隆版、猴子超市、火男水女等。这类游戏最为开放，没有单一明确的目标，AI需要协调多个子任务、管理资源、在较长的时间跨度内保持策略一致性，是对AI综合能力的最高考验。

34款游戏里，每款都配备了5个不同的任务，共170个任务。这些任务都有精确的量化目标，比如"在这一关收集3枚硬币"或者"在Wordle里用6次以内猜出答案"。任务说明用自然语言写就，但执行全靠AI自己观察画面来决定下一步动作，没有任何人工提示。

三、两种参赛方式：高手与通才的对决

这个考场设计了两种截然不同的"参赛资格"，对应两类AI选手。

第一种叫做"电脑操控型"，专业术语是Computer-Use Agent，简称CUA。这类AI的能力就像一个真正操控电脑的人——它能直接发出鼠标点击指令（点击屏幕上某个坐标位置）和键盘按键指令（按下某个方向键或者组合键）。这种方式最接近人类玩游戏的方式，灵活性高，但对AI的精准度要求也极高。AI必须从画面里判断出该点哪里、该按什么键，差一个像素位置可能就是天壤之别。

第二种叫做"通用多模态型"，即Generalist Multimodal Agent。这类AI不直接处理鼠标坐标和具体按键，而是通过一套事先定义好的"语义动作"来控制游戏。举个例子，在马里奥游戏里，这类AI可以调用"向右走"、"跳跃"、"向右跳"等预设动作，系统会自动把这些语义动作转换成对应的键盘操作。这样的设计让那些擅长理解语言和制定策略、但不擅长精确点击坐标的AI也能参与测试。

两种参赛方式在最底层使用的是同一套操控系统——所有动作最终都会被转换成鼠标移动、鼠标按下/抬起、键盘按下/抬起、等待这几种最基本的电脑操作指令。这确保了两种AI在同一套标准下被比较，公平性得到保证。

为了让AI能够在较长时间内保持连贯的策略，研究团队还为每个参赛AI配备了一套"工具箱"，包括结构化的提示模板（告诉AI当前在玩什么游戏、规则是什么、任务目标是什么）、滚动记忆模块（记住最近几轮的操作历史）、推理能力，以及与各AI提供商原生接口对接的工具调用机制。

四、"暂停键"的妙用：让评分更公平

游戏测试面临一个棘手的现实问题：不同AI的"思考速度"差异巨大。一个小模型可能0.5秒就能给出下一步动作，而一个需要深度推理的大模型可能要花6秒甚至更长。在真实游戏里，这意味着大模型面对的游戏状态已经比小模型更糟糕——因为游戏在它思考的那几秒里仍然在继续运行。这就好比让一个反应快的人和一个反应慢的人比赛拍苍蝇，却在慢的人想动作的时候，让苍蝇多飞了几圈——这显然不公平。

GameWorld通过一个巧妙的机制解决了这个问题：沙盒暂停。当AI在处理当前画面、进行推理、准备下一步动作时，游戏会自动暂停，等到AI给出指令后再继续运行。这样，每个AI面对的游戏状态都是平等的，最终的得分反映的是"这个AI做了什么决策"，而不是"这个AI有多快"。

当然，研究团队也意识到，真实世界里的AI应用不可能永远有暂停键。于是他们另外设计了一个补充版本叫做GameWorld-RT（RT代表Real-Time，实时），在这个版本里游戏不会暂停，AI的思考速度本身就成为了影响成绩的因素之一。两个版本各有侧重，主版本测试决策质量，RT版本测试综合反应能力。

五、成绩单怎么打分：从游戏内部读数据

传统游戏AI测试的评分方式有不少坑。有的直接截图后用另一个AI来判断"这步走得好不好"，这等于是让一个可能犯错的裁判去评判一场可能犯错的比赛，误差叠加，结果可信度大打折扣。有的用图像识别技术来读取画面上的数字，但文字识别本身就有一定错误率。

GameWorld的做法是从游戏源代码层面直接获取数据。研究团队为34款游戏分别注入了一段JavaScript桥接代码，这段代码能实时读取游戏内部的状态变量，比如当前得分、剩余生命、已收集硬币数、角色坐标、关卡进度等，然后把这些数据以结构化格式直接提供给评分系统。在马里奥游戏里，这些数据包括分数、关卡编号、进度百分比、玩家坐标、生命数、金币数、剩余时间等十几个精确数值，整个评分系统不需要"看"画面，而是直接"读"游戏内部数据，准确度接近100%。

每个任务对应两个评分指标。第一个是"成功率"，是一个非0即1的指标——这次任务是否完成了目标。第二个是"进度"，是一个0到100%之间的连续数值，表示AI在这次任务里走了多远。比如任务是"收集10枚硬币"，AI收集了5枚就挂掉了，进度就是50%。引入进度这个指标非常重要，因为它能区分"什么都没做就失败"和"做到一半才失败"这两种截然不同的情况，给AI能力的刻画提供了更细腻的维度。

当AI在游戏中触发失败条件（比如在马里奥里掉进深渊），游戏不会立即结束整个测试，而是重置到任务起点，让AI在剩余的操作步数预算里继续尝试，并保留这次尝试中已经达到的最佳进度记录。这意味着一次早期失误不会把AI整场表现全部清零，评分更能反映AI的真实能力。

六、18支队伍上场：成绩出炉

研究团队选择了13个当前最具代表性的AI模型，形成18组模型与接口的搭配。其中包括来自Anthropic的Claude-Sonnet-4.6、谷歌的Gemini-2.5-Computer-Use和Gemini-3-Flash-Preview、Z.ai的GLM-4.6V、OpenAI的GPT-5.2和专属电脑操控版、xAI的Grok-4.1-Fast-Reasoning、Moonshot的Kimi-K2.5、阿里巴巴的Qwen3-VL-Plus、字节跳动的Seed-1.8，以及三款开源模型Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B。

测试结果显示，通用多模态型中成绩最好的是谷歌的Gemini-3-Flash-Preview，整体进度得分达到41.9%，紧随其后的是GPT-5.2（40.6%）、Claude-Sonnet-4.6（39.3%）和Seed-1.8（39.0%）。电脑操控型中成绩最好的是Seed-1.8，进度得分为39.8%，Claude-Sonnet-4.6以38.3%紧跟其后。

这些数字乍看不低，但和人类玩家一比就相形见绌了。研究团队找来了两位计算机专业的研究生进行对照测试，在相同的操作步数限制下，完全没有接触过这些游戏和任务的新手玩家平均进度达到64.1%，成功率达到55.3%；而事先研究过游戏规则和任务细节的熟练玩家则达到了82.6%的进度和77.1%的成功率。最好的AI模型和最差的人类玩家之间，仍然存在约22个百分点的进度差距。

从游戏类型来看，AI在跑酷类游戏上的进度普遍相对较高，而在模拟经营类游戏上几乎所有模型都表现糟糕——后者要求长期规划和多目标协调，正好戳中了当前AI的软肋。解谜类游戏成绩参差不齐，逻辑推理强的模型表现相对较好，但遇到需要精准视觉判断的场景（比如扫雷里读取数字格局）仍然频频出错。

七、五个能力等级的剖析

光看总分还不够，研究团队进一步把34款游戏按照它们主要考验的能力类型，排列成一个五层的能力阶梯，来诊断AI到底败在哪里。

第一层叫做"基础操控与时机把握"，对应的是最简单的动作——在正确的时候按下正确的键。打砖块、Core Ball、Stack这类游戏属于这一层，战略负担轻，主要考察AI能不能把视觉判断转化为准确的操控动作。

第二层叫做"系统一式即时反应"（借用了心理学里的"系统一"概念，指的是快速、直觉性的判断），对应持续高频的动作决策，比如Chrome恐龙、Flappy Bird、神庙逃亡2等。这层考的是纯粹的反应速度和动作稳定性。

第三层叫做"系统二式空间导航"，对应需要思考路径、规划行进方向的游戏，比如吃豆人、马里奥、Wolfenstein 3D等。这里不只需要快，还需要在脑子里维持一个空间地图。

第四层叫做"符号推理与策略"，对应解谜类游戏，需要AI理解规则、规划多步棋局、在抽象状态空间里做决策。Wordle、扫雷、2048、俄罗斯方块属于这一层。

第五层叫做"开放世界协调与管理"，对应模拟经营类游戏，是最复杂的，要求AI同时追踪多个目标、管理资源、在长时间跨度里保持策略一致性。

测试结果揭示了一个清晰的能力图谱：无论是通用型还是电脑操控型AI，在第四层（策略推理）和第二层（即时反应）的成绩相对较好，而在第一层（基础时机把握）和第五层（长期协调）的成绩则明显偏低。换句话说，AI在做"想清楚该做什么"这件事上已经有了相当水平，但在"恰好在对的时刻做"和"几十步之后还能记得最初目标"这两点上，仍然存在显著短板。

八、重复测试：这个考场靠谱吗

一套评测系统要有价值，首先要稳定——同一个AI今天考和明天考，成绩应该大差不差，否则这个成绩就没有参考意义。研究团队对此进行了严格验证，选取了Qwen3-VL-30B-A3B和Qwen3-VL-235B-A22B两个开源模型，每个模型在电脑操控和通用两种接口下各运行10次完整的全量测试，合计覆盖170个任务的10轮重复。

结果显示，四种搭配的整体进度得分标准差都在1.1个百分点左右，成功率的波动也同样有限。这意味着GameWorld确实能够作为一个稳定的测量平台来使用，而不是一次性的快照。当然，也有少数游戏（比如Hextris、Cubefield、Wordle）表现出了更明显的轮次间波动，这恰恰说明这些游戏是真正有挑战性、有区分度的项目，能够捕捉到AI能力的细微差异。

九、记忆长短的权衡：上下文越多越好？

研究团队还专门研究了AI的"记忆量"对成绩的影响。每一步操作时，AI可以选择携带多少轮历史记录。记0轮意味着AI每次都像第一次看到游戏一样，忘记了之前所有操作；记2轮意味着AI能看到最近两轮的操作历史。

测试结果揭示了一个有趣的分歧：对于通用型AI，记忆轮数从0增加到2时，进度得分有小幅提升；但对于电脑操控型AI，随着记忆轮数增加，成绩反而持续下降。背后的原因也不难理解——通用型AI的历史记录是语义化的（"我上次向右走了"），信息密度高，有助于避免重复错误；而电脑操控型AI的历史记录是底层坐标和按键序列（"我上次点击了坐标(512, 384)"），信息量虽大但语义稀疏，大量低价值的历史信息反而成了干扰。

与此同时，记忆量增加带来的推理时间代价非常显著。通用型AI从0轮记忆到2轮记忆，每步的平均时间从5.5秒增加到8.6秒，输入的token数量从约1300增加到约3000；电脑操控型则从约1900 token增加到约5600 token，每步时间从7.2秒增加到12.8秒。记忆不是免费的，使用时需要权衡。

十、指令遵守率：AI有时候会"忘记规则"

游戏测试里还有一个微妙但重要的指标：AI发出的动作是否在游戏允许的范围之内。研究团队统计了每个模型的"无效动作率"，也就是那些不符合规则、无法被执行的动作占所有动作的比例。

结果显示，大多数顶尖模型的无效动作率极低，接近于零。但也有例外——GLM-4.6V的无效动作率高达8.3%，主要问题是它发出了自然语言文字而不是工具调用格式的指令，意思说得清楚，但格式不对；Qwen3-VL-30B-A3B的无效动作率为2.7%，主要是在长时间对话后"忘记"了当前游戏允许的动作范围，调用了不存在的指令。UI-TARS-1.5-7B则有0.4%的动作落在了游戏规定的操控范围之外。这些数据揭示了一个实际问题：在长时间的交互序列中，模型有一定概率出现"指令漂移"，忘记约束条件或者格式要求，这在实际应用中是必须被重视的可靠性问题。

十一、实时版的挑战：思考和行动必须同时在线

GameWorld-RT版本的测试给出了一个清醒的提示。在不暂停的实时环境下，Qwen3-VL-30B-A3B平均每步只需要2.4秒（通用型）或2.4秒（电脑操控型），而Qwen3-VL-235B-A22B则需要6秒以上。速度快的小模型整体进度约为33%，速度慢但更聪明的大模型整体进度约为33-34%，两者成绩接近，说明在实时环境里，单纯的"想得快"或者"想得对"都不足以拉开差距，真正的挑战是同时做到两者。

值得注意的是，实时版的成绩不能和暂停版直接比较，因为在实时版里，AI思考的那几秒游戏仍在继续运行，实际上等于给了AI更长的"游戏时间"但更短的"有效决策窗口"。这两个版本测量的是不同维度的能力，相辅相成。

十二、失败的四种面孔

研究团队通过仔细分析失败案例，归纳出了AI在游戏里失败的四类典型模式，像是四种不同类型的"考试失分点"。

第一类是感知失误：AI看错了画面，把障碍物认成了空地，或者误判了自己角色的位置，导致错误的决策。这类错误在画面复杂或者信息密集的场景里尤为突出。

第二类是精细动作失误：AI理解了该做什么，但在执行层面出了问题——跳晚了半拍、按键时间太短或太长、组合键的时序不对。策略正确，执行偏差。

第三类是指令遵循失误：AI在长时间交互后逐渐偏离了任务目标，开始执行一些无关动作，或者尝试调用不存在的操控指令，甚至忽视了任务的核心要求。

第四类是长期记忆失误：AI在多步任务里丢失了关键的历史信息，陷入重复循环——比如一直走同一条路、一遍又一遍地做同样的无效动作，却无法意识到自己在打转，更无法自我纠正。

这四类失败模式提供了清晰的改进方向：更好的视觉理解、更精准的动作控制、更强的长期记忆，以及更稳健的指令遵循能力。

归根结底，GameWorld想要回答的问题是：我们的AI，真的准备好应对复杂的现实世界了吗？答案是：还没有，但我们终于有了一把能够精确量尺来持续丈量这段距离。

当前最好的AI模型在游戏里的表现，和一个没有特别准备的普通人相比，仍然有将近22个百分点的进度差距。这个差距既存在于需要快速反应的动作层面，也存在于需要长时间规划的策略层面，更存在于在数十步操作之后仍然记得"我的最终目标是什么"的记忆层面。

对于普通人来说，这项研究意味着：当你听说某个AI"能玩游戏"的时候，不妨多问一句——它能完成任务吗，还是只是在随机按键？而GameWorld这把尺子，正是为了让这个问题有一个清晰、可重复、可验证的答案而存在的。有兴趣深入了解技术细节的读者，可以通过arXiv:2604.07429查阅完整研究报告。

Q&A

Q1：GameWorld基准测试和其他AI游戏测试平台有什么区别？

A：GameWorld最核心的区别在于评分方式。它不依赖截图识别或另一个AI来判断成绩，而是直接从游戏源代码内部读取数据，比如得分、坐标、硬币数等，评分结果完全确定、可重现。此外，它通过暂停机制把AI的思考速度和决策质量分开考察，确保评分公平，而不是让反应快的AI天然占优。

Q2：GameWorld里哪类游戏对AI来说最难？

A：模拟经营类游戏对几乎所有AI来说都是最大的挑战，因为这类游戏需要同时协调多个目标、管理资源，并在几十步操作后仍然记得最初的策略方向。测试结果显示，大多数模型在猴子超市、Minecraft这类游戏上的成功率接近于零，进度得分也普遍偏低。

Q3：GameWorld测试用的是哪些AI模型，开源模型表现怎么样？

A：测试涵盖了Claude、Gemini、GPT-5.2、Grok、Kimi等主流商业模型，以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B三款开源模型。开源模型的总体进度得分在30%至31%之间，低于表现最好的商业模型约10个百分点，但稳定性经过10轮重复测试验证，波动在1.1%以内，表现具有可重现性。