GTC 大会上人人都在谈 Agent 和具身智能,但真正让我理解 AI 如何进入物理世界的,是在一台极氪 9X 里发生的两场对话。
作者|靖宇
触目所及,满眼都是绿色。围绕着展览馆区域,整个圣何塞市中心,包括人们胸前的证件,充满了硅谷特有的「赛博绿」。
这是英伟达 GTC2026 大会的现场,全球超过 3 万人,来到这里,希望能更贴近快速进化的 AI 的最前沿。仿佛受到人们热情的感染,加州今年的天气反常,3 月中旬中午气温蹿升到 20 度以上,阳光照在人们热切的脸上,反射出焦虑的光晕。
仅仅两年时间,人们口中聊的,已经从大模型、算力变成了现在的 AI Agent、具身智能和世界模型——就像十年前 AI 从英伟达的加速计算芯片中迸发而出,躲在 AI Bot 对话框中的人工智能,现在正在如水银泻地般进入到人们生活的物理世界中。
极氪 8X 亮相 GTC2026|图片来源:吉利汽车
在主会场 SJCC 对面,主流车企和自动驾驶公司的展车在户外进行展示——让我颇感意外的是,在国内没能摸上的吉利汽车集团的新车极氪 8X,却在圣何塞看到了。吉利汽车集团亮相英伟达 GTC 2026 大会, CTO 李传海发表主题演讲,向人们介绍吉利汽车集团的全域 AI2.0 战略,详细描述超级智能体超级 Eva,和千里浩瀚 G-ASD 的高阶智能驾驶。
在英伟达宣布的智能驾驶计划中,吉利汽车集团作为合作伙伴,也将加入到「Hyperion」计划之中,在高阶智能驾驶领域和 AI 霸主进行深度合作。
看起来,当 AI 进入 3D 世界中时,目前最好的载体,正是智能汽车,而非人们寄予厚望的人形机器人。这个观点,在与两位在硅谷进行「空间智能」研究的创业者对谈中,再次得到了验证。
01
从模型的世界,到世界的模型
和第一位对谈者胡渊鸣的见面地点有些特殊——一台极氪 9X 的车内。
胡渊鸣在 AI 圈不算一个陌生的名字。MIT 博士毕业,回国创办了太极图形,做开源的物理仿真引擎,之后转型做了 Meshy AI——一个用 AI 把图片或文字变成 3D 模型的工具。一张图变成一个可旋转、可打印的 3D 模型,从两周缩短到两分钟,从 1000 美元降到 1 美元。这个产品目前在全球主要市场的份额超过了第二名到第五名的总和,ARR 已经做到了 4000 万美元。
不过让我更好奇的是,胡渊鸣最近正在做一件新的事情——AI 原生游戏。
「我在想世界模型做出来以后,它到底能解决什么问题?」胡渊鸣说,自动驾驶训练和机器人训练肯定是一个方向,但他个人更想用世界模型,给玩家提供一种全新的游戏体验。所谓 AI 原生游戏,就是离开了 AI 就没法玩,而且因为 AI 的存在变得更好玩。
这不是在游戏里套一层 AI 外衣。胡渊鸣想做的是把 AI,深度集成到游戏的核心玩法里——每一次游玩、不同的人来玩、甚至同一个人不同时间段玩,感受都完全不同。他给我打了一个比方,想象有一个顶级的游戏设计师加上一个顶级的程序员,在你玩第一局的 5 分钟里,已经根据你的情况给你重新设计了第二局的内容。
这个产品是一个俯视角的动作 RPG,有点像《暗黑破坏神》的核心机制,已经可以玩了,很快会登陆 Steam。
但这件事背后有一个更大的问题。世界模型到底应该怎么做?
胡渊鸣给出了一个非常清晰的分类。目前有两条主要的技术路线,第一条是端到端的像素生成,用实时视频扩散模型,直接从像素到像素;第二条是用 AI 生成 3D 物体和场景资产,再用游戏引擎或实时渲染工具,把它们组装成可以漫游的世界。
前者更「纯粹」,后者更「混合」。两条路线各有优劣,但胡渊鸣认为未来一定是两者融合的状态——随着技术演进,能混合进去的 AI 成分会越来越多。
VLA 和世界模型是目前智驾方案主流的技术选项|图片来源:吉利汽车
聊到这里,话题很自然地转向了智能驾驶。因为智驾训练,恰恰是世界模型最重要的应用场景之一。
胡渊鸣是特斯拉 FSD 的重度用户。他告诉我一个让他自己都刷新认知的数据——他以为自己大概 90% 的时间在用 FSD,结果后台统计显示是 99%。「我现在开车的职责已经从驾驶员变成了监督员,我就确保它不要撞就行了。」
不过作为一个技术人,他对 3D 资产在智驾训练中的价值有很深的理解。
「即使是纯视觉的方案,你也可能需要像 Meshy 这样的工具,去给它生成路上的障碍物、电线杆、行人、路牌。你的数据有多丰富,鲁棒性就有多强。」
这让我想到了这台极氪 9X 上搭载的千里浩瀚 G-ASD 智驾系统。它背后是吉利旗下 850 万辆车积累的百亿公里行驶数据、2500 万 clips 高价值场景片段,甚至还有沃尔沃 55 年的事故数据库。而在这次 GTC 上,吉利刚刚宣布千里浩瀚 G-ASD 将集成英伟达的 Cosmos 和 NuRec 技术,进一步提升智驾的仿真训练效率。
吉利集团在 GTC2026 上详细阐述了高阶智驾千里浩瀚 G-ASD 技术|图片来源:吉利汽车
胡渊鸣还给了我一个很有意思的判断。他认为智驾需要的智能,和大语言模型是两种不同的东西。
「大语言模型讲究见多识广、chain of thought、context length 很长,但这些在自动驾驶里面不一定是最重要的事情。智驾本质上还是一个垂直的东西,它需要的是对物理环境的感知、预测和行为决策。」
那智能座舱呢?我问他,如果有一台车能自己判断你冷还是热,直接帮你调空调,你会为此买单吗?
「我觉得可能会。」胡渊鸣说,他在特斯拉上经常反复调温度,一会觉得冷一会觉得热。「如果它能知道我需要什么,不用我去调,那我就不用多操心了。你还让我张口干啥?直接检测我到底要多少度,一步到位得了。」
他的这句话让我印象深刻。因为吉利全域 AI2.0 发布的超级 Eva,做的恰恰就是这件事——不是一个聊天机器人,而是一个能感知你声调、识别面部微表情、结合你历史行为模式,主动帮你调整灯光、音乐、座椅、空调的「整车智能体」。
胡渊鸣最后说了一句,让我忍不住在心里记下来的话——「你要是在中国的道路条件能把这个东西搞定,那你到这边(美国)来就是降维打击了。」
02
从空间智能,到智能空间
极客公园对话的另一位嘉宾是王熠鹏,李飞飞创办的 World Labs 的研究工程师。
和胡渊鸣不同,王熠鹏的身份更偏研究者。他之前在 Meta 的 Reality Labs 做 3D 空间重建,后来加入 Pika 做视频生成——2024 年底出的 Pika 2.0,确确实实打爆了第一代 Sora 的水平——之后又加入 World Labs,从事世界模型的研究。
三段经历看似跨度很大,但背后有一条清晰的技术主线,用他自己的话说,就是「让 AI 真正学到 3D 空间的知识」。
在 Meta 做 3D 重建的时候,他操刀了一个项目,让重建出来的三维空间里的物品可以被拿起来、移动、交互。但遇到了一堆技术瓶颈——把椅子从空间里移出来,地板上就有洞,物件之间会黏连。当时找到的解决办法是用 2D 的扩散模型来「补漏」,因为它已经从大量图片的预训练中学到了一些世界的规律。
「但这个整个操作显得非常工程化,它不是一个特别优雅的解决方案。」王熠鹏回忆说。
然后 Sora 出现了。
「最大的震动肯定还是 Sora 出现的时候。」王熠鹏说,他们发现视频生成模型在对世界二维投影的学习中,居然涌现出了一种更高维的、三维的归纳偏置。3D 从一个「表征」,变成了一个用来引导模型的「控制手段」。
这就是空间智能的起点。
我问他,空间智能和之前的 3D 视觉、具身智能,到底有什么本质区别?
World Labs 让用户可以非常轻松的创建可交互的 3D 环境|图片来源:World Labs
王熠鹏给了一个非常形象的类比。「3D 可以理解为创造领域的一种代码。」 就像 LLM 生成 Python 代码来和人沟通一样,3D 是设计师、建筑师、游戏开发者和机器之间沟通的桥梁。以前做动画片是手绘,后来变成了 3D 建模,效率和周期都大幅提升。同样的道理,如果把 AI 视频的控制方式从 2D 升维到 3D,就能更好地解决场景一致性、人物一致性和可编辑能力。
那让 AI 生成的内容符合真实世界的物理规律,到底有多难?
王熠鹏说了一个让我很受启发的区分。他把 AI 学到的物理分成了两个层次。
第一层是「直觉物理」,类似大学之前学的牛顿定律,它描述的是我们看得到的、身边物体的运动,比较符合人的直觉。 现在的视频模型和视觉模型,通过海量真实世界数据的预训练,基本上能学到这个层次。
第二层是「推理物理」,类似量子物理和相对论,完全反直觉,光靠观察根本观察不到,需要极强的推理和长链条的逻辑推导。 一个模型能不能在从来不知道相对论的情况下,自己推导出相对论?这是一个没有人知道答案的问题,也是目前学术界最大的研究目标之一。
王熠鹏认为,解决这个问题可能需要一种混合模型——世界模型提供物理直觉,LLM 的推理能力提供逻辑链条,两者结合才能让 AI 真正「理解」物理世界,而不仅仅是「模仿」它。
聊到这里,我把话题引向了车。
王熠鹏的回应让我意外——他自己主动就聊到了车内场景。
「比如说你可不可以有这么一个模型,去预测车上乘客下一步要干什么。你手一伸,空调就打开了,都不需要语音助手,它马上就理解你的意图。」他说,「听上去这个技术很远,但放在生活场景里,会有非常有意思的应用。」
吉利智能助手超级 Eva|图片来源:吉利汽车
我当时脑子里浮现的,就是吉利全域 AI2.0 发布的超级 Eva——它的多模态感知融合加动态任务规划引擎,正在做的就是这件事。识别后排有老人,整车自动调高空调温度、切换舒适悬架、规划避开颠簸路段的路线,同步调取他们爱听的评书,预订餐厅时备注「靠入口无台阶座位」。
王熠鹏还提到一个让我很兴奋的观点。World Labs 做的场景生成模型,已经可以被用来做智驾的虚拟仿真训练。Waymo 此前已经在用类似的技术来模拟极端场景——比如大象走在路上,比如前面的卡车上掉出来一头猪。
「自动驾驶需要解决长尾问题,这些数据在真实环境中非常难收集。但世界模型可以凭空生成这些极端场景,让智驾系统提前训练好应对方案。」
这不禁让我想到,这台极氪 9X 搭载的吉利千里浩瀚 G-ASD 正是利用端到端和世界行为模型 WAM,来让车辆更好地了解周围环境,进行推理思考,最后做出正确的行为决策。
在对话的最后,我问他怎么看空间智能和具身智能的关系。
王熠鹏的回答是四个字——「殊途同归」。
他认为,不管是空间智能学到的 3D 世界规律,还是世界模型学到的动力学预测,还是具身智能需要的环境交互能力,最终都会汇聚到同一个目标——让 AI 在真实物理世界中有效地行动。
03
空间智能和世界模型的交叉点
两场对话结束后,我在圣何塞的酒店里整理录音,脑子里反复在想一个问题——胡渊鸣和王熠鹏,一个做 3D 生成和世界模型,一个做空间智能和世界模型,两个人的技术路径看起来不同,但最终指向的其实是同一个方向。
胡渊鸣说,世界模型有两条路线,端到端的像素生成和 3D 资产混合渲染,未来一定会融合。王熠鹏说,空间智能需要从「直觉物理」进化到「推理物理」,需要世界模型和推理能力的结合。
两个人不约而同地得出了一个结论——要让 AI 在物理世界中真正有效地行动,光有感知不够,光有生成也不够,必须让模型学会「理解-预测-决策」这个完整闭环。
胡渊鸣从 3D 资产生成的角度讲了智驾仿真数据的重要性,王熠鹏从空间智能的角度讲了世界模型对极端场景训练的价值。两个人还在完全不同的语境下,分别聊到了车内智能座舱的未来——一个说「直接检测我到底要多少度,一步到位得了」,一个说「手一伸空调就开了,都不需要语音助手」。
有意思的是,他们各自描绘的这个未来,吉利已经在尝试用一套统一的技术框架来实现。
吉利全域 AI2.0 战略发布的超级 Eva 和千里浩瀚 G-ASD|图片来源:吉利汽车
吉利在今年 CES 上首发的 WAM 世界行为模型(World Action Model),某种意义上就是在回应这两位创业者提出的技术命题。
WAM 的设计逻辑和王熠鹏说的「直觉物理+推理物理」的混合路径高度一致。它采用分层架构,上层用多模态大模型进行宏观任务规划——相当于「推理层」;下层集成动作专家和世界模型,进行精细的推演和决策——相当于「直觉层」。更关键的是,吉利引入了人类在环的价值函数体系,用沃尔沃 55 年的事故数据和 850 万辆车的百亿公里行驶数据,训练出一个「体验评价官」,让系统能够对推演出的各种未来进行安全、舒适、效率的综合打分,选择最优解。
这不就是王熠鹏说的「从直觉物理到推理物理」的工程化落地吗?
而胡渊鸣强调的「数据丰富度决定鲁棒性」,在吉利的体系里也有对应——千里浩瀚 G-ASD 拥有吉利旗下 850 万辆车产生的百亿公里实际行驶数据、2500 万 clips 高价值场景数据,云端多模态大模型加世界模型参数达千亿级别。面对百亿参数模型「上车」时的推理延迟难题,吉利用 4bit 量化、算子融合、稀疏注意力机制,把单帧推理时间压到了 27 毫秒,满足 40 毫秒的控制周期要求。
在这个统一的 WAM 框架下,吉利的「舱驾融合」就变成了一件顺理成章的事。
超级 Eva 负责「想」。 它不是外挂在车上的独立 AI,而是基于 WAM 与智驾、底盘、动力等底层系统原生融合的整车智能体。它用端到端语音大模型直接处理音频信号,可以感知你的声调、识别面部微表情;它的动态任务规划引擎可以把一句模糊的话——「带我去接孩子放学,顺便找一家麦当劳,5 点我要到学校」——拆解成线路规划、智驾启动、途经点导航、到校门口自主泊车的全链路操作;它还有短期和长期记忆架构,记得一周前你随口提过的「女儿下周钢琴比赛」,今天上车就会主动提醒。
千里浩瀚 G-ASD 负责「动」。 它是 WAM 在智驾领域的工程化落地。双 Thor 芯片提供 1400TOPS 算力,5 颗激光雷达实现三重 360 度感知覆盖,已经具备 L3 级智能驾驶方案的落地能力。在盲区丁字路口遇到电瓶车逆行和行人鬼探头同时发生时,它的决策不是「刹停」或「通过」二选一,而是对减速、让行、借道等多种可能性进行毫秒级推演,最终执行综合风险、效率、舒适度后的最优博弈策略。
一个负责想,一个负责动,由 WAM 统一调度。 这大概是我目前见到的,离两位创业者描绘的那个「AI 能理解物理世界」的未来最近的量产方案。
吉利还在 GTC 期间宣布,极氪 8X 将首发搭载超级 Eva + G-ASD 4.0——全球首个打通智能座舱、智能辅助驾驶、数字生态的超级智能体。
GTC 结束的那天晚上,我坐上了回酒店的 Uber。司机是个印度裔小哥,他问我在 GTC 上看到了什么有意思的东西。我想了想说,可能最有意思的不是哪个芯片或者哪个模型,而是一个正在形成的共识——AI 要从比特世界进入原子世界,第一站不是实验室里的机器人,而是每天停在你家楼下的那台车。
胡渊鸣说,AI 原生游戏的世界「本身是一个生命体」。王熠鹏说,他希望 AI 空间是「真实的、以人为本的」。
如果把这两句话放在一起看,一台内嵌了世界模型、能理解空间、能预判行为、能自主决策的智能汽车,或许就是我们这个时代,第一个真正意义上的「AI 原生硬件」。
*头图来源:吉利汽车
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO