在硅谷和两个AI工程师聊完，我觉得下一代汽车可能不是车了,硅谷2025

GTC 大会上人人都在谈 Agent 和具身智能，但真正让我理解 AI 如何进入物理世界的，是在一台极氪 9X 里发生的两场对话。

作者｜靖宇

触目所及，满眼都是绿色。围绕着展览馆区域，整个圣何塞市中心，包括人们胸前的证件，充满了硅谷特有的「赛博绿」。

这是英伟达 GTC2026 大会的现场，全球超过 3 万人，来到这里，希望能更贴近快速进化的 AI 的最前沿。仿佛受到人们热情的感染，加州今年的天气反常，3 月中旬中午气温蹿升到 20 度以上，阳光照在人们热切的脸上，反射出焦虑的光晕。

仅仅两年时间，人们口中聊的，已经从大模型、算力变成了现在的 AI Agent、具身智能和世界模型——就像十年前 AI 从英伟达的加速计算芯片中迸发而出，躲在 AI Bot 对话框中的人工智能，现在正在如水银泻地般进入到人们生活的物理世界中。

极氪 8X 亮相 GTC2026｜图片来源：吉利汽车

在主会场 SJCC 对面，主流车企和自动驾驶公司的展车在户外进行展示——让我颇感意外的是，在国内没能摸上的吉利汽车集团的新车极氪 8X，却在圣何塞看到了。吉利汽车集团亮相英伟达 GTC 2026 大会， CTO 李传海发表主题演讲，向人们介绍吉利汽车集团的全域 AI2.0 战略，详细描述超级智能体超级 Eva，和千里浩瀚 G-ASD 的高阶智能驾驶。

在英伟达宣布的智能驾驶计划中，吉利汽车集团作为合作伙伴，也将加入到「Hyperion」计划之中，在高阶智能驾驶领域和 AI 霸主进行深度合作。

看起来，当 AI 进入 3D 世界中时，目前最好的载体，正是智能汽车，而非人们寄予厚望的人形机器人。这个观点，在与两位在硅谷进行「空间智能」研究的创业者对谈中，再次得到了验证。

从模型的世界，到世界的模型

和第一位对谈者胡渊鸣的见面地点有些特殊——一台极氪 9X 的车内。

胡渊鸣在 AI 圈不算一个陌生的名字。MIT 博士毕业，回国创办了太极图形，做开源的物理仿真引擎，之后转型做了 Meshy AI——一个用 AI 把图片或文字变成 3D 模型的工具。一张图变成一个可旋转、可打印的 3D 模型，从两周缩短到两分钟，从 1000 美元降到 1 美元。这个产品目前在全球主要市场的份额超过了第二名到第五名的总和，ARR 已经做到了 4000 万美元。

不过让我更好奇的是，胡渊鸣最近正在做一件新的事情——AI 原生游戏。

「我在想世界模型做出来以后，它到底能解决什么问题？」胡渊鸣说，自动驾驶训练和机器人训练肯定是一个方向，但他个人更想用世界模型，给玩家提供一种全新的游戏体验。所谓 AI 原生游戏，就是离开了 AI 就没法玩，而且因为 AI 的存在变得更好玩。

这不是在游戏里套一层 AI 外衣。胡渊鸣想做的是把 AI，深度集成到游戏的核心玩法里——每一次游玩、不同的人来玩、甚至同一个人不同时间段玩，感受都完全不同。他给我打了一个比方，想象有一个顶级的游戏设计师加上一个顶级的程序员，在你玩第一局的 5 分钟里，已经根据你的情况给你重新设计了第二局的内容。

这个产品是一个俯视角的动作 RPG，有点像《暗黑破坏神》的核心机制，已经可以玩了，很快会登陆 Steam。

但这件事背后有一个更大的问题。世界模型到底应该怎么做？

胡渊鸣给出了一个非常清晰的分类。目前有两条主要的技术路线，第一条是端到端的像素生成，用实时视频扩散模型，直接从像素到像素；第二条是用 AI 生成 3D 物体和场景资产，再用游戏引擎或实时渲染工具，把它们组装成可以漫游的世界。

前者更「纯粹」，后者更「混合」。两条路线各有优劣，但胡渊鸣认为未来一定是两者融合的状态——随着技术演进，能混合进去的 AI 成分会越来越多。

VLA 和世界模型是目前智驾方案主流的技术选项｜图片来源：吉利汽车

聊到这里，话题很自然地转向了智能驾驶。因为智驾训练，恰恰是世界模型最重要的应用场景之一。

胡渊鸣是特斯拉 FSD 的重度用户。他告诉我一个让他自己都刷新认知的数据——他以为自己大概 90% 的时间在用 FSD，结果后台统计显示是 99%。「我现在开车的职责已经从驾驶员变成了监督员，我就确保它不要撞就行了。」

不过作为一个技术人，他对 3D 资产在智驾训练中的价值有很深的理解。

「即使是纯视觉的方案，你也可能需要像 Meshy 这样的工具，去给它生成路上的障碍物、电线杆、行人、路牌。你的数据有多丰富，鲁棒性就有多强。」

这让我想到了这台极氪 9X 上搭载的千里浩瀚 G-ASD 智驾系统。它背后是吉利旗下 850 万辆车积累的百亿公里行驶数据、2500 万 clips 高价值场景片段，甚至还有沃尔沃 55 年的事故数据库。而在这次 GTC 上，吉利刚刚宣布千里浩瀚 G-ASD 将集成英伟达的 Cosmos 和 NuRec 技术，进一步提升智驾的仿真训练效率。

吉利集团在 GTC2026 上详细阐述了高阶智驾千里浩瀚 G-ASD 技术｜图片来源：吉利汽车

胡渊鸣还给了我一个很有意思的判断。他认为智驾需要的智能，和大语言模型是两种不同的东西。

「大语言模型讲究见多识广、chain of thought、context length 很长，但这些在自动驾驶里面不一定是最重要的事情。智驾本质上还是一个垂直的东西，它需要的是对物理环境的感知、预测和行为决策。」

那智能座舱呢？我问他，如果有一台车能自己判断你冷还是热，直接帮你调空调，你会为此买单吗？

「我觉得可能会。」胡渊鸣说，他在特斯拉上经常反复调温度，一会觉得冷一会觉得热。「如果它能知道我需要什么，不用我去调，那我就不用多操心了。你还让我张口干啥？直接检测我到底要多少度，一步到位得了。」

他的这句话让我印象深刻。因为吉利全域 AI2.0 发布的超级 Eva，做的恰恰就是这件事——不是一个聊天机器人，而是一个能感知你声调、识别面部微表情、结合你历史行为模式，主动帮你调整灯光、音乐、座椅、空调的「整车智能体」。

胡渊鸣最后说了一句，让我忍不住在心里记下来的话——「你要是在中国的道路条件能把这个东西搞定，那你到这边（美国）来就是降维打击了。」

从空间智能，到智能空间

极客公园对话的另一位嘉宾是王熠鹏，李飞飞创办的 World Labs 的研究工程师。

和胡渊鸣不同，王熠鹏的身份更偏研究者。他之前在 Meta 的 Reality Labs 做 3D 空间重建，后来加入 Pika 做视频生成——2024 年底出的 Pika 2.0，确确实实打爆了第一代 Sora 的水平——之后又加入 World Labs，从事世界模型的研究。

三段经历看似跨度很大，但背后有一条清晰的技术主线，用他自己的话说，就是「让 AI 真正学到 3D 空间的知识」。

在 Meta 做 3D 重建的时候，他操刀了一个项目，让重建出来的三维空间里的物品可以被拿起来、移动、交互。但遇到了一堆技术瓶颈——把椅子从空间里移出来，地板上就有洞，物件之间会黏连。当时找到的解决办法是用 2D 的扩散模型来「补漏」，因为它已经从大量图片的预训练中学到了一些世界的规律。

「但这个整个操作显得非常工程化，它不是一个特别优雅的解决方案。」王熠鹏回忆说。

然后 Sora 出现了。

「最大的震动肯定还是 Sora 出现的时候。」王熠鹏说，他们发现视频生成模型在对世界二维投影的学习中，居然涌现出了一种更高维的、三维的归纳偏置。3D 从一个「表征」，变成了一个用来引导模型的「控制手段」。

这就是空间智能的起点。

我问他，空间智能和之前的 3D 视觉、具身智能，到底有什么本质区别？

World Labs 让用户可以非常轻松的创建可交互的 3D 环境｜图片来源：World Labs

王熠鹏给了一个非常形象的类比。「3D 可以理解为创造领域的一种代码。」 就像 LLM 生成 Python 代码来和人沟通一样，3D 是设计师、建筑师、游戏开发者和机器之间沟通的桥梁。以前做动画片是手绘，后来变成了 3D 建模，效率和周期都大幅提升。同样的道理，如果把 AI 视频的控制方式从 2D 升维到 3D，就能更好地解决场景一致性、人物一致性和可编辑能力。

那让 AI 生成的内容符合真实世界的物理规律，到底有多难？

王熠鹏说了一个让我很受启发的区分。他把 AI 学到的物理分成了两个层次。

第一层是「直觉物理」，类似大学之前学的牛顿定律，它描述的是我们看得到的、身边物体的运动，比较符合人的直觉。 现在的视频模型和视觉模型，通过海量真实世界数据的预训练，基本上能学到这个层次。

第二层是「推理物理」，类似量子物理和相对论，完全反直觉，光靠观察根本观察不到，需要极强的推理和长链条的逻辑推导。 一个模型能不能在从来不知道相对论的情况下，自己推导出相对论？这是一个没有人知道答案的问题，也是目前学术界最大的研究目标之一。

王熠鹏认为，解决这个问题可能需要一种混合模型——世界模型提供物理直觉，LLM 的推理能力提供逻辑链条，两者结合才能让 AI 真正「理解」物理世界，而不仅仅是「模仿」它。

聊到这里，我把话题引向了车。

王熠鹏的回应让我意外——他自己主动就聊到了车内场景。

「比如说你可不可以有这么一个模型，去预测车上乘客下一步要干什么。你手一伸，空调就打开了，都不需要语音助手，它马上就理解你的意图。」他说，「听上去这个技术很远，但放在生活场景里，会有非常有意思的应用。」

吉利智能助手超级 Eva｜图片来源：吉利汽车

我当时脑子里浮现的，就是吉利全域 AI2.0 发布的超级 Eva——它的多模态感知融合加动态任务规划引擎，正在做的就是这件事。识别后排有老人，整车自动调高空调温度、切换舒适悬架、规划避开颠簸路段的路线，同步调取他们爱听的评书，预订餐厅时备注「靠入口无台阶座位」。

王熠鹏还提到一个让我很兴奋的观点。World Labs 做的场景生成模型，已经可以被用来做智驾的虚拟仿真训练。Waymo 此前已经在用类似的技术来模拟极端场景——比如大象走在路上，比如前面的卡车上掉出来一头猪。

「自动驾驶需要解决长尾问题，这些数据在真实环境中非常难收集。但世界模型可以凭空生成这些极端场景，让智驾系统提前训练好应对方案。」

这不禁让我想到，这台极氪 9X 搭载的吉利千里浩瀚 G-ASD 正是利用端到端和世界行为模型 WAM，来让车辆更好地了解周围环境，进行推理思考，最后做出正确的行为决策。

在对话的最后，我问他怎么看空间智能和具身智能的关系。

王熠鹏的回答是四个字——「殊途同归」。

他认为，不管是空间智能学到的 3D 世界规律，还是世界模型学到的动力学预测，还是具身智能需要的环境交互能力，最终都会汇聚到同一个目标——让 AI 在真实物理世界中有效地行动。

空间智能和世界模型的交叉点

两场对话结束后，我在圣何塞的酒店里整理录音，脑子里反复在想一个问题——胡渊鸣和王熠鹏，一个做 3D 生成和世界模型，一个做空间智能和世界模型，两个人的技术路径看起来不同，但最终指向的其实是同一个方向。

胡渊鸣说，世界模型有两条路线，端到端的像素生成和 3D 资产混合渲染，未来一定会融合。王熠鹏说，空间智能需要从「直觉物理」进化到「推理物理」，需要世界模型和推理能力的结合。

两个人不约而同地得出了一个结论——要让 AI 在物理世界中真正有效地行动，光有感知不够，光有生成也不够，必须让模型学会「理解-预测-决策」这个完整闭环。

胡渊鸣从 3D 资产生成的角度讲了智驾仿真数据的重要性，王熠鹏从空间智能的角度讲了世界模型对极端场景训练的价值。两个人还在完全不同的语境下，分别聊到了车内智能座舱的未来——一个说「直接检测我到底要多少度，一步到位得了」，一个说「手一伸空调就开了，都不需要语音助手」。

有意思的是，他们各自描绘的这个未来，吉利已经在尝试用一套统一的技术框架来实现。

吉利全域 AI2.0 战略发布的超级 Eva 和千里浩瀚 G-ASD｜图片来源：吉利汽车

吉利在今年 CES 上首发的 WAM 世界行为模型（World Action Model），某种意义上就是在回应这两位创业者提出的技术命题。

WAM 的设计逻辑和王熠鹏说的「直觉物理+推理物理」的混合路径高度一致。它采用分层架构，上层用多模态大模型进行宏观任务规划——相当于「推理层」；下层集成动作专家和世界模型，进行精细的推演和决策——相当于「直觉层」。更关键的是，吉利引入了人类在环的价值函数体系，用沃尔沃 55 年的事故数据和 850 万辆车的百亿公里行驶数据，训练出一个「体验评价官」，让系统能够对推演出的各种未来进行安全、舒适、效率的综合打分，选择最优解。

这不就是王熠鹏说的「从直觉物理到推理物理」的工程化落地吗？

而胡渊鸣强调的「数据丰富度决定鲁棒性」，在吉利的体系里也有对应——千里浩瀚 G-ASD 拥有吉利旗下 850 万辆车产生的百亿公里实际行驶数据、2500 万 clips 高价值场景数据，云端多模态大模型加世界模型参数达千亿级别。面对百亿参数模型「上车」时的推理延迟难题，吉利用 4bit 量化、算子融合、稀疏注意力机制，把单帧推理时间压到了 27 毫秒，满足 40 毫秒的控制周期要求。

在这个统一的 WAM 框架下，吉利的「舱驾融合」就变成了一件顺理成章的事。

超级 Eva 负责「想」。 它不是外挂在车上的独立 AI，而是基于 WAM 与智驾、底盘、动力等底层系统原生融合的整车智能体。它用端到端语音大模型直接处理音频信号，可以感知你的声调、识别面部微表情；它的动态任务规划引擎可以把一句模糊的话——「带我去接孩子放学，顺便找一家麦当劳，5 点我要到学校」——拆解成线路规划、智驾启动、途经点导航、到校门口自主泊车的全链路操作；它还有短期和长期记忆架构，记得一周前你随口提过的「女儿下周钢琴比赛」，今天上车就会主动提醒。

千里浩瀚 G-ASD 负责「动」。 它是 WAM 在智驾领域的工程化落地。双 Thor 芯片提供 1400TOPS 算力，5 颗激光雷达实现三重 360 度感知覆盖，已经具备 L3 级智能驾驶方案的落地能力。在盲区丁字路口遇到电瓶车逆行和行人鬼探头同时发生时，它的决策不是「刹停」或「通过」二选一，而是对减速、让行、借道等多种可能性进行毫秒级推演，最终执行综合风险、效率、舒适度后的最优博弈策略。

一个负责想，一个负责动，由 WAM 统一调度。 这大概是我目前见到的，离两位创业者描绘的那个「AI 能理解物理世界」的未来最近的量产方案。

吉利还在 GTC 期间宣布，极氪 8X 将首发搭载超级 Eva + G-ASD 4.0——全球首个打通智能座舱、智能辅助驾驶、数字生态的超级智能体。

GTC 结束的那天晚上，我坐上了回酒店的 Uber。司机是个印度裔小哥，他问我在 GTC 上看到了什么有意思的东西。我想了想说，可能最有意思的不是哪个芯片或者哪个模型，而是一个正在形成的共识——AI 要从比特世界进入原子世界，第一站不是实验室里的机器人，而是每天停在你家楼下的那台车。

胡渊鸣说，AI 原生游戏的世界「本身是一个生命体」。王熠鹏说，他希望 AI 空间是「真实的、以人为本的」。

如果把这两句话放在一起看，一台内嵌了世界模型、能理解空间、能预判行为、能自主决策的智能汽车，或许就是我们这个时代，第一个真正意义上的「AI 原生硬件」。

*头图来源：吉利汽车

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO