「AI新世代」从GPU到LPU：英伟达大举进攻推理芯片，黄仁勋再落关键一子

本报（chinatimes.net.cn）记者石飞月北京报道

AI产业的风向变了。前几年，所有人都在拼命“训模型”——把数据喂给GPU，等它长出智能，那时候，英伟达的GPU是唯一的王，谁也撼不动，但这两年，智能体成群结队地涌向市场，Manus出圈，OpenClaw刷屏，模型厂商和云服务商开始靠卖token赚钱，Cerebras们举着“更快、更便宜”的旗号，在英伟达霸占多年的版图上撕口子。

业界终于意识到：训练还在继续，但“推理”已经成为主流。英伟达自然不会错失这一市场机遇，推理这块蛋糕，它也要切一刀。3月17日凌晨，在GTC 2026上，英伟达CEO黄仁勋亮出新武器——Groq 3 LPU，大举进攻推理芯片市场。同时他甩出一组数字：到2027年底，Blackwell和Rubin两条产品线的年收入将达1万亿美元，比半年前的预测翻了一倍。

训练推理两手抓

这次英伟达正式推出Vera Rubin平台，共搭载7款芯片，分别是Rubin GPU、Vera CPU、ConnectX-9 SuperNIC、BlueField-4 DPU、NVLink 6 Switch、Spectrum-X 102.4T CPO，以及新集成的Groq 3 LPU。

“LPU”全称为“Language Processing Unit”，即语言处理单元，是一款专用的AI推理加速芯片。Rubin GPU结合Groq LPU，将把当下每秒100个token的吞吐量，推向每秒1500个token甚至更多，从而完美支撑AI智能体交互场景。

英伟达还推出了一个专用于容纳新型Groq加速器的完整机架——Groq LPX。据英伟达超大规模与高性能计算副总裁Ian Buck介绍，Groq LPX将提升“每个令牌上AI模型每一层”的解码性能，并使Rubin能够服务于人工智能的下一个前沿领域：多智能体系统，这些系统需要在推理数万亿个参数的模型的同时，在数百万个token的上下文窗口中提供交互式性能。

英伟达对推理芯片市场的觊觎并非始于今日，而是早有准备。2025年12月，该公司就以约200亿美元的价格收购Groq的核心技术资产，其创始人加入英伟达，Groq 3 LPU是收购后首个公开成果。

基于高盛全球投资研究部的模型预测，在AI服务器的AI芯片中非GPGPU芯片的出货占比将呈现明确上升趋势，预计将从2024年的36%逐步增长至2027年的45%，而GPGPU芯片的出货占比预计将从2024年的64%逐步下降至2027年的55%。

InSemi Research高级分析师秦丰伟向本报记者介绍道，GPU在基座大模型训练、通用性要求更高的场景（如公有云）、并行计算场景会更有竞争力，而ASIC（包括TPU、DPU、NPU、LPU等）在模型部署阶段、在推理场景下相对更有优势，因为这些场景对能效比、响应延迟等方面要求更高。

“所以英伟达推出LPU，是应对AI算力需求从‘训练’转向‘推理’的战略性布局，这是补齐短板的一步关键棋。它用更精细化的产品布局，回应了市场变化和竞争对手的挑战。”深度科技研究院院长张孝荣对本报记者说。

据媒体报道，英伟达应对日益增长的推理需求的计划已为其带来了回报，OpenAI上月表示，已与英伟达达成协议，将采购具有“专用推理能力”的芯片。

从芯片到工厂的生态升级

过去几年，生成式AI引爆市场，大模型训练成为绝对的算力黑洞，凭借GPU的绝对主导地位，英伟达吃下了这轮热潮的大部分红利，业绩与市值双双狂飙，赚得盆满钵满。

然而，随着模型参数比拼进入边际效应递减的瓶颈期，大模型训练在狂奔两年后终于慢了下来。2025年开始，竞争的轴心就开始偏移——智能体与上下文工程站上C位。最直接的信号是：OpenClaw攻陷社交平台，从科技圈一路破圈，挤进普通人的信息流里。

智能体是促进推理市场需求增长的一大关键因素，其核心场景更侧重于推理，而非训练，这一观点在多项权威研究和行业分析中得到明确支持，所以当AI能力从基础大模型的训练阶段向注重构建工作流的智能体演进时，AI算力需求重心已从训练转向推理。

而作为AI基础设施的头号玩家，英伟达自然也要顺应市场潮流进行改变，而且是整个生态层面的升级。

此次GTC大会上，除了推出LPU，英伟达还联合以OpenClaw创始人Peter Steinberger为代表的团队，召集了一批顶级安全与计算专家，推出NeMoClaw参考架构，它内置OpenShell技术、网络防护机制和隐私路由能力，可以让企业在自己的私有环境中安全运行智能体系统。

英伟达甚至推出了Vera Rubin DSX AI工厂参考设计，教大家如何设计、建设和运营整个AI工厂基础设施堆栈，涵盖计算、NVIDIA Spectrum-XEthernet网络以及存储，以实现可重复、可扩展且最优的集群性能。

黄仁勋表示：“在AI时代，智能token是新的货币，而AI工厂是生成这些token的基础设施。通过Vera Rubin DSX AI Factory参考设计和Omniverse DSX Blueprint（数字孪生蓝图），我们正在提供构建世界上最高生产力AI工厂的基础，加速首次收入时间，并最大化规模和能源效率。”

至于推出LPU后，英伟达旗舰GPU的占比会有怎样的变化，《华夏时报》记者就此采访了英伟达方面，截至发稿未收到回复。“英伟达进军推理芯片市场，并不意味着GPU业务会因此受损，反而会在与LPU的协同中，迎来更广阔的市场空间。”张孝荣说。

智参智库特聘专家袁博指出，短期内，GPU凭借强大的场景适应性和生态壁垒主导市场，特别是在AI训练场景，长远来看，两条路线并非完全对立，而将走向融合与市场分层。“硬件上，GPU会集成更强的专用核心，而专用芯片也会增加可编程性。市场上，预计将形成其主导创新与通用平台、专用芯片深耕规模化推理的分层格局。”

在ASIC市场，其实已经集结了一批英伟达的对手，包括国外的Cerebras，中国的寒武纪、华为、燧原科技等。张孝荣认为，英伟达进军推理芯片领域，对于国内厂商而言既是挑战也是催化剂，会形成“挤压”与“倒逼”并存的复杂局面，这将加速行业洗牌和技术升级。

责任编辑：黄兴利主编：寒丰