视频模型巨大的「隐形成本」，没人告诉你,隐形视频拍摄软件

只能是巨头的游戏。

作者｜宇航猿

编辑｜靖宇

关于 AI 烧钱，业内流传着各种令人瞠目结舌的数字。xAI 花了超过 10 亿美元建起 Colossus 超算集群；OpenAI 的月度算力账单据称高达数亿美元；Anthropic 最近几轮融资拿到的钱，在公众眼里几乎已经和「GPU 时数」直接画上了等号。

大家谈的，几乎都是算力。GPU 成了衡量一家 AI 公司实力的通用货币，也是每一篇融资报道里最显眼的那个数字。

但最近，我听了一期 Latent Space 播客，采访对象是 xAI 前研究员 Ethan He——Ethan 在 2025 年中加入 xAI 时，面对的是一个没有基础设施、没有数据、没有现成模型的白纸状态，然后用三个月时间和一支小团队，从零搭建出了 Grok Imagine 视频生成系统，做到了当时业内的一流水准。

在聊到大规模视频模型的训练成本时，他说了一组数字，让我突然意识到，这个行业可能一直在算错了账。

「光是存储这些视频和特征数据，每个月就要几百万美元——这还没算算力成本。」

账单上的隐藏成本

从零到一，开始训练一个视频大模型，需要花多少钱？先假设你的团队有矿，GPU 算力随便用。即便如此，你可能依然低估了这件事的巨量成本。

假设你要训练一个世界级的视频生成模型，去网上爬取了 10 亿条视频，每条平均 5MB——这已经是相当保守的估计了。光这一项，你就需要 5PB（拍字节）的存储空间。按照 AWS S3 的定价，5PB 标准存储，每个月大约 10 万美元。

但这还只是原始视频。

在训练视频模型之前，业界通行的做法是先用 VAE（变分自编码器）把视频压缩成「潜在空间」的特征向量——因为一段视频展开成像素，可能有几十亿个 token，任何 Transformer 都处理不了，必须先压缩成模型能理解的连续向量。

问题是，这份压缩后的特征数据，体积和原始视频相当，同样需要长期存储，随时备用。

两项叠加，数十 PB，每月存储费就超过 20 万美元。

然后是最出乎意料的那一项：数据进出费（egress/ingress）。

Ethan 说，从互联网下载 10 亿条视频的带宽费用，在 AWS 上比存储这些视频还贵。每次训练，数据都要从存储层拉到计算层跑一遍。视频模型的训练不像语言模型那样训完就完了——要迭代，要调参，要测试不同的数据配比，每一次实验都意味着把全量数据再过一遍。实验跑得越多，这笔钱就乘以相应的倍数。

综合算下来，Ethan 的估算是，光是数据这一块，每个月就要几百万美元。GPU 的费用，还没开始计入。

这笔账，我从来没见哪篇 AI 行业报道细算过。

扛不住的带宽费

那像 xAI 这样自建 Colossus 数据中心的公司，是不是在存储和带宽上省了一大笔钱？

Ethan 的回答很直接：「当然，省了很多。」

这句话背后，藏着视频 AI 行业一个不太被讨论的结构性秘密。

大语言模型的训练数据是文本，体积相对轻量，而且训练完成之后，原始数据基本就完成了使命——你不需要反复拉取全量语料来做推理或微调。但视频数据完全不同：体积是文本的几个数量级，而且每一次训练实验都要把全量数据完整过一遍。

迭代速度越快，数据搬运的成本就越高；而 Ethan 反复强调，迭代速度，恰恰是视频模型研发中最关键的变量。

这就形成了一个相互咬合的困局：你需要快速迭代来提升模型质量，但快速迭代意味着频繁搬运数据，而频繁搬运数据在公有云上的账单会把你压垮。

Ethan 本人的轨迹就是一个注脚。他在 NVIDIA 参与构建了 Cosmos 世界模型，做着做着意识到，视频模型存在和语言模型类似的「规模定律」，还有很大的提升空间。他当时面临的选择，表面看是「我需要更多 GPU」，但同样关键的一句话他没明说——他需要一个不用按 AWS 账单算钱的地方，来存放和搬运数据。这也是他去 xAI 的根本原因之一，而 Colossus 给了他那个环境。

对于没有自建基础设施的团队来说，这笔账是怎么算的？每个月几百万美元的数据成本，叠加在 GPU 算力之上，意味着哪怕你有一流的算法团队，哪怕你募到了足够的资金，只要你还在用公有云，你就是在用一个无底洞的账单跟对手的自建机房赛跑。

这道门槛，不是一家有优秀算法的创业公司能靠「技术取胜」跨过去的。

视频模型的护城河不是模型

这让我想起一个有趣的对比。

在大语言模型领域，「开源 vs 闭源」的竞争打得相当激烈，Llama 系列的出现让很多小团队也能在语言模型上打出有竞争力的产品，甚至逼着 OpenAI 和 Anthropic 不断压低 API 价格。但在视频生成领域，我们看到的格局截然不同：能持续做出顶尖视频模型的，基本只有 Sora、Veo、可灵这些背靠巨量资源的团队，没有一家是靠开源社区在车库里跑出来的。

很多人把这归结为「数据和算力的差距」。这当然没错，但 Ethan 揭示的这组数字告诉我们，问题比这更深：视频 AI 的基础设施成本，从一开始就把竞争的门槛，锁死在了极少数玩家的高度上。

这和半导体行业的逻辑有几分相似。台积电之所以难以撼动，不只因为它们有更好的设计，更因为一座新晶圆厂需要几百亿美元的前期投入，这道门槛本身就是最好的护城河。视频 AI 的护城河，就是那数十 PB 的数据基础设施和每月滚动产生的带宽账单。

Ethan 在播客里还补充了一个更深的推论：视频模型的「智能」，大部分其实来自背后的语言模型，而不是视频扩散模型本身。

视频扩散模型相对「愚钝」，它只会按照文字描述照单全收地生成画面，描述写「一只猫」，它就生成一只猫，站在纯白背景前，纹丝不动——因为你没有告诉它背景是什么、猫在做什么。

真正理解用户意图、把「一只猫」扩写成一段精细的镜头语言描述的，是背后那个做「提示词重写」的大型语言模型。Ethan 说，在 Cosmos 时期，他曾经用一个「快乐的羊」做测试：不经过提示词重写，生成出来的画面极其 CGI、毫无质感；加上重写之后，效果判若云泥——而整个视频扩散模型本身，并没有发生任何改变。

这意味着，决定一家公司在视频 AI 领域能走多远的，不只是视频模型的参数规模，而是能否同时撑起语言模型和视频模型这两套基础设施，并让它们有效协同。

这是一场拼综合体力的竞赛。

下一个战场，早就被划好了

当然，行业也在摸索出路。

提示词重写的 Agent 化、让语言模型像「指挥官」一样调度多个视频生成工具、用 FFmpeg 这类传统软件处理中间环节——这些方向的共同逻辑是，把「语言模型的推理成本」和「视频扩散模型的生成成本」分层计算，让每一次视频生成的调用更加精准，减少无效的计算和数据搬运。

Ethan 对「视频 Agent」的走向相当笃定。他预测今年年底将出现一个拐点——当 Agent 生成的视频质量能够稳定达到「可投放商业广告」的水准，企业才会真正愿意为之买单，整体的成本结构也会随之演变。

但有一点不会变：谁掌握了数据的存储和流转，谁就掌握了这场游戏的起点。

在 AI 这个赛道上，「真正的壁垒」每隔一段时间就会轮换一次。先是参数量，然后是训练数据规模，然后是对齐技术，然后是推理效率。现在，视频 AI 正在揭示下一道壁垒——不是某种神秘的算法突破，而是一份冷冰冰的基础设施账单。

这笔账，从一开始就没打算让所有人都算得起。

*头图来源：iMini AI

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

WWDC26 开场，6 月 9 日午间 12:00，极客公园直播间带你解读：会发光的 Siri 来了，换上谷歌大脑还算苹果吗？一向把门关得最紧的苹果，为什么主动向模型厂敞开大门？库克在 AI 落后的节点交班，留给我们的又会是一个什么样的苹果？