(来源:科普中国)
转自:科普中国
当地时间 3 月 24 日,OpenAI 官方宣布将全面停止其视频生成服务 Sora。
此时距离这款 AI 视频生成领域“里程碑式”的产品在独立应用上线,仅半年的时间。
无法填补的资金黑洞
不知道大家是否还记得 2025 年 9 月的那个早上。
一觉醒来,朋友圈被几段逼真到令人起鸡皮疙瘩的短视频刷屏了。镜头穿过繁华的赛博朋克都市,掠过毛发纤毫毕现的野生动物,甚至完美模拟了水杯掉落时水花四溅的物理轨迹。
那是 OpenAI 推出 Sora 2 的高光时刻,当时它甚至被媒体誉为视频界的 GPT-3.5 时刻。
“好莱坞要完蛋了”“现实不存在了”“大人,时代变了”……各种惊呼声不绝于耳。那个时候大家都以为,马上就能到在手机里输入几句话,直接生成一部大片的时代了。
但谁能想到,这个曾经引爆世界的视频模型,却被 OpenAI 亲手按下了停止键。
没有体面的告别,也没有挽留。相关应用被撤下,开发接口被切断,甚至那些曾经被媒体津津乐道的跨界合作,也全都随着服务器的关停烟消云散。
Sora2 为什么会走到这一步?原因有很多,但最主要的原因就是视频模型太贵了。
我们先来看一组反差极大的数字。
在 Sora 2 刚发布的最初的狂热期,它的独立应用曾在短时间内被下载了几百万次。但潮水退去后,活跃度呈现出断崖式下跌。大家新鲜感一过,发现除了用它做几个朋友圈的吸睛素材,几乎找不到必须付费的理由。最终,它交出的答卷是:截至 2026 年 2 月,Sora 累计消费者收入仅约 140 万美元。
但这笔钱,甚至不够它塞牙缝。维持它运转的真实代价,是每天高达 1500 万美元的算力成本。
这意味着,只要服务器灯亮着,每天就会有一套豪宅的钱灰飞烟灭。一年下来,这会是一个几十亿美元的无底洞。即使是家大业大的 OpenAI ,也无法承受这种持续的失血。
在投资人眼中,它不再是那个展示肌肉的明星,而是一个难以变现的吞金兽。
为什么生成视频
这么费 Token?
很多人可能不理解,为什么用 AI 写几万字的文章,或者画一张精美的插图,成本只在几分钱上下;但只要一涉及到视频生成,这些被寄予厚望的 AI 模型就会立刻变成把服务器干冒烟的算力刺客?
这背后,其实是 AI 眼中世界维度的巨大差异。
首先是数据维度的差异,文本是一维的序列,而视频是高维的时空数据。
当你在对话框里输入问题时,AI处理的是文字。文字是什么?它是人类高度浓缩的思想符号,在 AI 的世界里,这被称为Token。写文章,本质上是 AI 在一维的序列中,通过概率分布预测下一个词。虽然大模型参数惊人,但这种一维序列的计算量是呈线性增长的,成本完全可控。
但视频的生成逻辑,却是一场高维数据的灾难。
视频不仅包含二维的空间信息(每一帧图像的宽和高),还包含了时间维度。一张 1080P 的图片,包含大约 200 万个像素点。如果你要求 AI 生成一段 10 秒钟、每秒 60 帧的短片,意味着它需要在极短的时间内,处理和生成12 亿个像素。这种高维数据的处理量,与纯文本相比,根本不在一个数量级。
其次是算力刺客,为了维持物理规律,AI必须解决极其复杂的时空一致性问题。
视频比图片多了一个极其苛刻的维度:时间。
为了处理这庞大的数据,Sora创新性地采用了一种名为时空补丁的技术。你可以想象 AI 正在玩一个地狱难度的三维拼图。如果视频里有一只猫在漫步,AI不仅要完美画出第一帧的猫,它还必须保证一个残酷的条件:在接下来的几百帧里,这只猫的腿不能突然变成五条,地上的影子必须严格遵循太阳移动的轨迹(光影的连贯),猫毛在风中飘动的质感不能一闪一闪。
换句话说,为了不穿模、不违和,AI不得不在每一帧、每一个像素之间进行天文数字级的反复计算。这已经不是单纯的生成图像了,它是在服务器里,试图用算力临时拼凑出一个符合真实世界规律的物理引擎。这种对时间和空间连贯性的极度渴求,让算力需求呈指数级爆炸。
通向 AGI 的路,到底在哪?
除了极其昂贵的算力消耗让人得不偿失之外,Sora的退场,其实也掀开了 OpenAI 内部一场深刻的路线反思。
当它刚刚问世时,无数人都怀揣着一个浪漫的幻想,既然这个模型能逼真地模拟出三维的物理世界,那它是不是就是通向通用人工智能(AGI)的那个世界模型?大家天真地以为,只要让 AI 看过足够多的视频,它就能像人类婴儿一样,自然而然地理解什么是重力、什么是惯性。
但现实却给这种技术狂热泼了一盆冷水。正如一些顶尖的 AI 学者所批评的那样,仅仅依靠海量数据的统计学概率来猜像素,AI其实根本没有真正理解物理法则。这就是为什么在那些惊艳的演示里,我们偶尔会看到悬浮在半空的椅子、或者违背常理的水流。事实证明,这种缺乏真实世界反馈的纯视觉预测,像是一座建在沙滩上的海市蜃楼。
既然视频这条路太贵又走不通,那什么才是更坚固的基石?行业的共识,悄然转向了代码(Coding)。
所以在按下 Sora 停止键的同时,OpenAI迅速将最核心的资源,倾斜到了以 Codex 为代表的代码智能体上。
为什么是代码?因为代码的世界,没有那么多模棱两可的视觉猜谜。它极其严谨,且拥有不容置疑的客观标准——编译器不会撒谎。代码写得对不对,跑一下测试就知道了。在一次次的报错和修正中,AI经历了完整的感知、行动、观察、修正循环。正是在这种真实的反馈中,AI反而获得了一种理解因果关系的捷径。
更何况,回归到商业的本质,一个能不知疲倦地编写、测试和重构代码的 AI 助手,能实打实地帮企业削减庞大的人力成本。在这个资本逐渐趋于理性的寒冬里,这种能立刻转化为生产力的工具,远比生成几秒钟酷炫却无用的视频,要来得实在得多。
算力之外的
“达摩克利斯之剑”
除了高昂的算力成本之外,其实还有另一个导致视频大模型步履维艰的致命伤,那就是法律与伦理风险。
我们可以把算力成本看作是 AI 公司的内忧,那么版权问题就是随时可能引爆的外患。
视频大模型要达到逼真的效果,需要吞噬海量的高质量视频数据进行训练。这些数据从哪里来?很多模型在早期都采用了先抓取,后道歉的野蛮生长策略。但这在视频领域是行不通的,因为影视作品的版权壁垒极其森严。越是逼真的生成效果,就越容易引发全球媒体和创作者的巨额版权诉讼。
此外,视频生成技术还像个“抱着炸弹的孩子”。它太容易被滥用于伪造名人讲话、制造假新闻(Deepfake)了。面对各国政府日益严苛的监管政策,像 Sora 这样没有明确商业模式、却自带极高社会风险的项目,在投资人眼里,无疑是一个随时会爆炸的麻烦制造者。
Sora 的关停,或许让这个世界失去了一个令人惊叹的视觉魔法,也让无数创作者的短视频美梦暂时落空。但对于 OpenAI 来说,这绝对是一件甩掉包袱的好事。
卸下了每天沉重账单,摆脱了无休止的版权纠纷,这家 AI 巨头终于可以把所有的算力、人才和精力,重新聚焦到他们最擅长、也最能带来实际价值的核心业务上去。