这项由新加坡国立大学与牛津大学联合开展的研究,发布于2026年4月,以技术报告形式提交至arXiv,编号为arXiv:2604.07429,有兴趣深入了解的读者可通过该编号查阅完整论文。
说到测试一个人是否真的聪明,光靠笔试远远不够。你得看他能不能在复杂、快节奏、充满突发状况的环境里随机应变。道理放到AI身上同样成立。研究团队提出了一个核心问题:如果我们真的想知道那些功能强大的多模态大语言模型(也就是能同时看图、读文字、做推理的AI)到底有多厉害,是不是应该把它们扔进游戏世界里,让它们真刀真枪地打一局?
于是,这个被命名为**GameWorld**的基准测试平台就此诞生——一个专门为AI游戏玩家设计的"考场",涵盖34款浏览器游戏和170个任务,要求AI在动态变化的画面里做出判断、规划路线、操控角色、完成目标。它的与众不同在于:每一场考试的成绩,都不依赖人的主观判断,而是直接从游戏内部数据里读取,绝对客观,可复现,可验证。
研究团队为这套平台设计了两种不同的"参赛方式",并邀请了13个主流AI模型上场接受检验,最终形成18组模型与接口的搭配组合。结果颇为耐人寻味——即便是表现最好的AI选手,离一个没有特别准备的普通人类玩家还有相当距离。这不是一个让人沾沾自喜的结论,而是一个清醒的提醒:真实世界的复杂交互,对AI而言依然是一座尚未翻越的高山。
一、为什么游戏是测试AI的理想考场
谈到测试AI能力,学术界已经积累了相当多的方法。有些测试让AI回答问题,有些让AI描述图片,还有些让AI写代码或者翻译文字。这些测试都有一个共同的局限:它们大多是"一问一答"式的,AI给出答案,考试就结束了。但现实世界的任务往往不是这样运作的。
游戏则完全不同。在游戏里,AI必须反复观察当前画面、做出决策、执行操作、再观察画面变化,如此循环,每一步的错误都会影响下一步的处境。这种"看一眼、想一下、做一个动作、再看结果"的循环,和我们人类在现实中解决问题的方式高度相似。更重要的是,游戏结果是即时反馈的——撞墙了就是撞墙了,掉进坑里就是掉进坑里,没有模糊地带。
研究团队特别选择了浏览器游戏作为载体,这背后有很实际的考量。浏览器游戏不需要安装复杂的游戏引擎,重置方便,可以快速启动多个独立实例同时运行,非常适合大规模自动化测试。相比需要模拟器或专用硬件的传统游戏AI研究,这种方式轻量得多,扩展性也更强。
在GameWorld之前,其实已经有一些团队尝试过用游戏来测试AI。比如有的研究只覆盖了6款游戏,有的依赖人工肉眼判断成绩,有的无法区分AI是因为"想得慢"还是"想得差"而输掉比赛。GameWorld针对这些痛点逐一提出了解法,后面我们会详细展开。
二、游戏场馆的34个赛道
GameWorld的游戏库按照玩法类型被分成五大类,每一类都在考验AI的不同能力。
第一大类叫做"跑酷类",共8款游戏,包括大名鼎鼎的Chrome恐龙跳跃、神庙逃亡2、Flappy Bird等。这类游戏的特点是场景永远在向前推进,AI必须以极高的频率做出反应——跳跃、闪避、转弯,一旦慢了半拍,游戏就结束了。它考验的是AI的"即时反应"能力,类似于人类在高速公路上驾驶时需要的那种快速判断。
第二大类是"街机类",共7款,比如吃豆人、打砖块、贪吃蛇。这类游戏同样节奏较快,但增加了多个移动实体需要同时追踪的难度——AI不仅要控制自己的角色,还要同时关注多个敌人或目标的位置和动向,就像同时盯着棋盘上多颗棋子一样。
第三大类是"平台跳跃类",共8款,代表作是马里奥游戏、Vex 3等。这类游戏要求AI对物理规律有精准的理解——跳跃的时机、落点的判断、与平台边缘的距离控制,差一点点就会掉下去,考验的是空间感和精细操控能力。
第四大类是"解谜类",共7款,包括2048、扫雷、Wordle、俄罗斯方块、Hextris等。这类游戏的节奏慢得多,不要求快速反应,但要求AI能够进行逻辑推理、规划多步棋局、在有限信息下做出最优决策。对于那些以推理能力见长的AI来说,这里是它们最有可能表现出色的领域。
第五大类是"模拟经营类",共4款,有Minecraft克隆版、猴子超市、火男水女等。这类游戏最为开放,没有单一明确的目标,AI需要协调多个子任务、管理资源、在较长的时间跨度内保持策略一致性,是对AI综合能力的最高考验。
34款游戏里,每款都配备了5个不同的任务,共170个任务。这些任务都有精确的量化目标,比如"在这一关收集3枚硬币"或者"在Wordle里用6次以内猜出答案"。任务说明用自然语言写就,但执行全靠AI自己观察画面来决定下一步动作,没有任何人工提示。
三、两种参赛方式:高手与通才的对决
这个考场设计了两种截然不同的"参赛资格",对应两类AI选手。
第一种叫做"电脑操控型",专业术语是Computer-Use Agent,简称CUA。这类AI的能力就像一个真正操控电脑的人——它能直接发出鼠标点击指令(点击屏幕上某个坐标位置)和键盘按键指令(按下某个方向键或者组合键)。这种方式最接近人类玩游戏的方式,灵活性高,但对AI的精准度要求也极高。AI必须从画面里判断出该点哪里、该按什么键,差一个像素位置可能就是天壤之别。
第二种叫做"通用多模态型",即Generalist Multimodal Agent。这类AI不直接处理鼠标坐标和具体按键,而是通过一套事先定义好的"语义动作"来控制游戏。举个例子,在马里奥游戏里,这类AI可以调用"向右走"、"跳跃"、"向右跳"等预设动作,系统会自动把这些语义动作转换成对应的键盘操作。这样的设计让那些擅长理解语言和制定策略、但不擅长精确点击坐标的AI也能参与测试。
两种参赛方式在最底层使用的是同一套操控系统——所有动作最终都会被转换成鼠标移动、鼠标按下/抬起、键盘按下/抬起、等待这几种最基本的电脑操作指令。这确保了两种AI在同一套标准下被比较,公平性得到保证。
为了让AI能够在较长时间内保持连贯的策略,研究团队还为每个参赛AI配备了一套"工具箱",包括结构化的提示模板(告诉AI当前在玩什么游戏、规则是什么、任务目标是什么)、滚动记忆模块(记住最近几轮的操作历史)、推理能力,以及与各AI提供商原生接口对接的工具调用机制。
四、"暂停键"的妙用:让评分更公平
游戏测试面临一个棘手的现实问题:不同AI的"思考速度"差异巨大。一个小模型可能0.5秒就能给出下一步动作,而一个需要深度推理的大模型可能要花6秒甚至更长。在真实游戏里,这意味着大模型面对的游戏状态已经比小模型更糟糕——因为游戏在它思考的那几秒里仍然在继续运行。这就好比让一个反应快的人和一个反应慢的人比赛拍苍蝇,却在慢的人想动作的时候,让苍蝇多飞了几圈——这显然不公平。
GameWorld通过一个巧妙的机制解决了这个问题:沙盒暂停。当AI在处理当前画面、进行推理、准备下一步动作时,游戏会自动暂停,等到AI给出指令后再继续运行。这样,每个AI面对的游戏状态都是平等的,最终的得分反映的是"这个AI做了什么决策",而不是"这个AI有多快"。
当然,研究团队也意识到,真实世界里的AI应用不可能永远有暂停键。于是他们另外设计了一个补充版本叫做GameWorld-RT(RT代表Real-Time,实时),在这个版本里游戏不会暂停,AI的思考速度本身就成为了影响成绩的因素之一。两个版本各有侧重,主版本测试决策质量,RT版本测试综合反应能力。
五、成绩单怎么打分:从游戏内部读数据
传统游戏AI测试的评分方式有不少坑。有的直接截图后用另一个AI来判断"这步走得好不好",这等于是让一个可能犯错的裁判去评判一场可能犯错的比赛,误差叠加,结果可信度大打折扣。有的用图像识别技术来读取画面上的数字,但文字识别本身就有一定错误率。
GameWorld的做法是从游戏源代码层面直接获取数据。研究团队为34款游戏分别注入了一段JavaScript桥接代码,这段代码能实时读取游戏内部的状态变量,比如当前得分、剩余生命、已收集硬币数、角色坐标、关卡进度等,然后把这些数据以结构化格式直接提供给评分系统。在马里奥游戏里,这些数据包括分数、关卡编号、进度百分比、玩家坐标、生命数、金币数、剩余时间等十几个精确数值,整个评分系统不需要"看"画面,而是直接"读"游戏内部数据,准确度接近100%。
每个任务对应两个评分指标。第一个是"成功率",是一个非0即1的指标——这次任务是否完成了目标。第二个是"进度",是一个0到100%之间的连续数值,表示AI在这次任务里走了多远。比如任务是"收集10枚硬币",AI收集了5枚就挂掉了,进度就是50%。引入进度这个指标非常重要,因为它能区分"什么都没做就失败"和"做到一半才失败"这两种截然不同的情况,给AI能力的刻画提供了更细腻的维度。
当AI在游戏中触发失败条件(比如在马里奥里掉进深渊),游戏不会立即结束整个测试,而是重置到任务起点,让AI在剩余的操作步数预算里继续尝试,并保留这次尝试中已经达到的最佳进度记录。这意味着一次早期失误不会把AI整场表现全部清零,评分更能反映AI的真实能力。
六、18支队伍上场:成绩出炉
研究团队选择了13个当前最具代表性的AI模型,形成18组模型与接口的搭配。其中包括来自Anthropic的Claude-Sonnet-4.6、谷歌的Gemini-2.5-Computer-Use和Gemini-3-Flash-Preview、Z.ai的GLM-4.6V、OpenAI的GPT-5.2和专属电脑操控版、xAI的Grok-4.1-Fast-Reasoning、Moonshot的Kimi-K2.5、阿里巴巴的Qwen3-VL-Plus、字节跳动的Seed-1.8,以及三款开源模型Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B。
测试结果显示,通用多模态型中成绩最好的是谷歌的Gemini-3-Flash-Preview,整体进度得分达到41.9%,紧随其后的是GPT-5.2(40.6%)、Claude-Sonnet-4.6(39.3%)和Seed-1.8(39.0%)。电脑操控型中成绩最好的是Seed-1.8,进度得分为39.8%,Claude-Sonnet-4.6以38.3%紧跟其后。
这些数字乍看不低,但和人类玩家一比就相形见绌了。研究团队找来了两位计算机专业的研究生进行对照测试,在相同的操作步数限制下,完全没有接触过这些游戏和任务的新手玩家平均进度达到64.1%,成功率达到55.3%;而事先研究过游戏规则和任务细节的熟练玩家则达到了82.6%的进度和77.1%的成功率。最好的AI模型和最差的人类玩家之间,仍然存在约22个百分点的进度差距。
从游戏类型来看,AI在跑酷类游戏上的进度普遍相对较高,而在模拟经营类游戏上几乎所有模型都表现糟糕——后者要求长期规划和多目标协调,正好戳中了当前AI的软肋。解谜类游戏成绩参差不齐,逻辑推理强的模型表现相对较好,但遇到需要精准视觉判断的场景(比如扫雷里读取数字格局)仍然频频出错。
七、五个能力等级的剖析
光看总分还不够,研究团队进一步把34款游戏按照它们主要考验的能力类型,排列成一个五层的能力阶梯,来诊断AI到底败在哪里。
第一层叫做"基础操控与时机把握",对应的是最简单的动作——在正确的时候按下正确的键。打砖块、Core Ball、Stack这类游戏属于这一层,战略负担轻,主要考察AI能不能把视觉判断转化为准确的操控动作。
第二层叫做"系统一式即时反应"(借用了心理学里的"系统一"概念,指的是快速、直觉性的判断),对应持续高频的动作决策,比如Chrome恐龙、Flappy Bird、神庙逃亡2等。这层考的是纯粹的反应速度和动作稳定性。
第三层叫做"系统二式空间导航",对应需要思考路径、规划行进方向的游戏,比如吃豆人、马里奥、Wolfenstein 3D等。这里不只需要快,还需要在脑子里维持一个空间地图。
第四层叫做"符号推理与策略",对应解谜类游戏,需要AI理解规则、规划多步棋局、在抽象状态空间里做决策。Wordle、扫雷、2048、俄罗斯方块属于这一层。
第五层叫做"开放世界协调与管理",对应模拟经营类游戏,是最复杂的,要求AI同时追踪多个目标、管理资源、在长时间跨度里保持策略一致性。
测试结果揭示了一个清晰的能力图谱:无论是通用型还是电脑操控型AI,在第四层(策略推理)和第二层(即时反应)的成绩相对较好,而在第一层(基础时机把握)和第五层(长期协调)的成绩则明显偏低。换句话说,AI在做"想清楚该做什么"这件事上已经有了相当水平,但在"恰好在对的时刻做"和"几十步之后还能记得最初目标"这两点上,仍然存在显著短板。
八、重复测试:这个考场靠谱吗
一套评测系统要有价值,首先要稳定——同一个AI今天考和明天考,成绩应该大差不差,否则这个成绩就没有参考意义。研究团队对此进行了严格验证,选取了Qwen3-VL-30B-A3B和Qwen3-VL-235B-A22B两个开源模型,每个模型在电脑操控和通用两种接口下各运行10次完整的全量测试,合计覆盖170个任务的10轮重复。
结果显示,四种搭配的整体进度得分标准差都在1.1个百分点左右,成功率的波动也同样有限。这意味着GameWorld确实能够作为一个稳定的测量平台来使用,而不是一次性的快照。当然,也有少数游戏(比如Hextris、Cubefield、Wordle)表现出了更明显的轮次间波动,这恰恰说明这些游戏是真正有挑战性、有区分度的项目,能够捕捉到AI能力的细微差异。
九、记忆长短的权衡:上下文越多越好?
研究团队还专门研究了AI的"记忆量"对成绩的影响。每一步操作时,AI可以选择携带多少轮历史记录。记0轮意味着AI每次都像第一次看到游戏一样,忘记了之前所有操作;记2轮意味着AI能看到最近两轮的操作历史。
测试结果揭示了一个有趣的分歧:对于通用型AI,记忆轮数从0增加到2时,进度得分有小幅提升;但对于电脑操控型AI,随着记忆轮数增加,成绩反而持续下降。背后的原因也不难理解——通用型AI的历史记录是语义化的("我上次向右走了"),信息密度高,有助于避免重复错误;而电脑操控型AI的历史记录是底层坐标和按键序列("我上次点击了坐标(512, 384)"),信息量虽大但语义稀疏,大量低价值的历史信息反而成了干扰。
与此同时,记忆量增加带来的推理时间代价非常显著。通用型AI从0轮记忆到2轮记忆,每步的平均时间从5.5秒增加到8.6秒,输入的token数量从约1300增加到约3000;电脑操控型则从约1900 token增加到约5600 token,每步时间从7.2秒增加到12.8秒。记忆不是免费的,使用时需要权衡。
十、指令遵守率:AI有时候会"忘记规则"
游戏测试里还有一个微妙但重要的指标:AI发出的动作是否在游戏允许的范围之内。研究团队统计了每个模型的"无效动作率",也就是那些不符合规则、无法被执行的动作占所有动作的比例。
结果显示,大多数顶尖模型的无效动作率极低,接近于零。但也有例外——GLM-4.6V的无效动作率高达8.3%,主要问题是它发出了自然语言文字而不是工具调用格式的指令,意思说得清楚,但格式不对;Qwen3-VL-30B-A3B的无效动作率为2.7%,主要是在长时间对话后"忘记"了当前游戏允许的动作范围,调用了不存在的指令。UI-TARS-1.5-7B则有0.4%的动作落在了游戏规定的操控范围之外。这些数据揭示了一个实际问题:在长时间的交互序列中,模型有一定概率出现"指令漂移",忘记约束条件或者格式要求,这在实际应用中是必须被重视的可靠性问题。
十一、实时版的挑战:思考和行动必须同时在线
GameWorld-RT版本的测试给出了一个清醒的提示。在不暂停的实时环境下,Qwen3-VL-30B-A3B平均每步只需要2.4秒(通用型)或2.4秒(电脑操控型),而Qwen3-VL-235B-A22B则需要6秒以上。速度快的小模型整体进度约为33%,速度慢但更聪明的大模型整体进度约为33-34%,两者成绩接近,说明在实时环境里,单纯的"想得快"或者"想得对"都不足以拉开差距,真正的挑战是同时做到两者。
值得注意的是,实时版的成绩不能和暂停版直接比较,因为在实时版里,AI思考的那几秒游戏仍在继续运行,实际上等于给了AI更长的"游戏时间"但更短的"有效决策窗口"。这两个版本测量的是不同维度的能力,相辅相成。
十二、失败的四种面孔
研究团队通过仔细分析失败案例,归纳出了AI在游戏里失败的四类典型模式,像是四种不同类型的"考试失分点"。
第一类是感知失误:AI看错了画面,把障碍物认成了空地,或者误判了自己角色的位置,导致错误的决策。这类错误在画面复杂或者信息密集的场景里尤为突出。
第二类是精细动作失误:AI理解了该做什么,但在执行层面出了问题——跳晚了半拍、按键时间太短或太长、组合键的时序不对。策略正确,执行偏差。
第三类是指令遵循失误:AI在长时间交互后逐渐偏离了任务目标,开始执行一些无关动作,或者尝试调用不存在的操控指令,甚至忽视了任务的核心要求。
第四类是长期记忆失误:AI在多步任务里丢失了关键的历史信息,陷入重复循环——比如一直走同一条路、一遍又一遍地做同样的无效动作,却无法意识到自己在打转,更无法自我纠正。
这四类失败模式提供了清晰的改进方向:更好的视觉理解、更精准的动作控制、更强的长期记忆,以及更稳健的指令遵循能力。
归根结底,GameWorld想要回答的问题是:我们的AI,真的准备好应对复杂的现实世界了吗?答案是:还没有,但我们终于有了一把能够精确量尺来持续丈量这段距离。
当前最好的AI模型在游戏里的表现,和一个没有特别准备的普通人相比,仍然有将近22个百分点的进度差距。这个差距既存在于需要快速反应的动作层面,也存在于需要长时间规划的策略层面,更存在于在数十步操作之后仍然记得"我的最终目标是什么"的记忆层面。
对于普通人来说,这项研究意味着:当你听说某个AI"能玩游戏"的时候,不妨多问一句——它能完成任务吗,还是只是在随机按键?而GameWorld这把尺子,正是为了让这个问题有一个清晰、可重复、可验证的答案而存在的。有兴趣深入了解技术细节的读者,可以通过arXiv:2604.07429查阅完整研究报告。
Q&A
Q1:GameWorld基准测试和其他AI游戏测试平台有什么区别?
A:GameWorld最核心的区别在于评分方式。它不依赖截图识别或另一个AI来判断成绩,而是直接从游戏源代码内部读取数据,比如得分、坐标、硬币数等,评分结果完全确定、可重现。此外,它通过暂停机制把AI的思考速度和决策质量分开考察,确保评分公平,而不是让反应快的AI天然占优。
Q2:GameWorld里哪类游戏对AI来说最难?
A:模拟经营类游戏对几乎所有AI来说都是最大的挑战,因为这类游戏需要同时协调多个目标、管理资源,并在几十步操作后仍然记得最初的策略方向。测试结果显示,大多数模型在猴子超市、Minecraft这类游戏上的成功率接近于零,进度得分也普遍偏低。
Q3:GameWorld测试用的是哪些AI模型,开源模型表现怎么样?
A:测试涵盖了Claude、Gemini、GPT-5.2、Grok、Kimi等主流商业模型,以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B三款开源模型。开源模型的总体进度得分在30%至31%之间,低于表现最好的商业模型约10个百分点,但稳定性经过10轮重复测试验证,波动在1.1%以内,表现具有可重现性。