登录
注册
2023 年 Sequoia 的 David Cahn 提出的'2000 亿美元问题',揭示了 AI 基础设施建设中资本投入与终端收入之间的巨大鸿沟。当时每投入 1 美元购买 GPU,还需额外支出 1 美元用于数据中心供电,这意味着每年 GPU 资本支出需产生约 2000 亿美元收入才能回本。即便在乐观假设下,投入与终端客户实际付费之间仍存在超过 1250 亿美元的缺口。这一担忧直指 GPU 可能因超前于真实需求而被过度建设。一年后的 2024 年,随着超大规模厂商资本支出膨胀,Cahn 将这一缺口重新定义为'6000 亿美元问题',看空逻辑收敛为:过度建设导致供给过剩,进而烧毁资本。
然而,填补这一窟窿的答案并未出现在训练侧,而是出现在推理(inference)侧,市场仅在过去几周才开始将其计入定价。
Cerebras 的上市成为市场觉醒的标志性事件,其 IPO 获得 20 倍超额认购,定价接近周三最终加价的两倍。这种狂热并非源于对'下一个英伟达杀手'的押注,而是市场终于意识到 AI 真正的瓶颈在于推理而非训练。Cerebras 的核心优势在于其专为极快推理设计的芯片架构。与仅发生一次的训练不同,推理是随使用量扩张的经常性需求,每一次 Claude 回答问题或智能体(agent)执行任务都在持续消耗算力。J.P. Morgan 估算推理市场规模是训练的 10 到 50 倍。当机器开始执行由其他机器下达的任务,即进入智能体式扩张阶段,推理需求将不再随用户数线性增长,而是随算力本身指数级扩张。
英伟达最新财报电话会进一步确认了这一趋势。Jensen Huang 明确指出 AI 需求正呈抛物线式增长,原因是智能体 AI 已经到来,主流 AI 已从一次性推理过渡到逻辑推理,再进入能自主调用工具、编排任务的智能体阶段。Huang 强调'Tokens 现在是有利可图的',在 AI 时代,算力直接等同于收入和利润。这一判断重塑了整个行业逻辑:训练是一次性成本,推理则是经常性成本,且当前瓶颈在推理。英伟达据此重组了财报口径,将业务拆分为数据中心与边缘计算两大平台。数据中心当季营收约 750 亿美元,同比增长 92%,其中超大规模(Hyperscale)约 380 亿美元,环比增长 12%;AI 云、工业与企业(ACIE)约 370 亿美元,环比增长 31%。全新的边缘计算板块营收 64 亿美元,同比增长 29%,覆盖智能体 AI 和物理 AI 运行的终端,如 PC、工作站、AI-RAN 基站、机器人和汽车。尽管边缘目前占总收入不到 8%,但英伟达已将其提升至与数据中心并列的'第二平台',标志着推理正在分裂为云端推理与端点推理两条战线。
午方 AI 梳理发现,在云端推理这一核心战场,Anthropic 已成为行业风向标。其使用量远超预先配置的产能,关于 Claude 被'脑叶切除'的抱怨刷屏全网,包括回复限流、推理变慢及上下文窗口被压缩。解决方案是赤裸裸的算力堆叠:2026 年 5 月,Anthropic 将从 SpaceX 手中接管整个 Colossus 1 数据中心,该中心拥有 22 万 + 张英伟达 GPU 和 300+ 兆瓦电力,并专门用于推理而非训练。这一产能解锁引发了一系列限额变动信号:5 月 6 日,Anthropic 将 Claude Code 的五小时限额翻倍并取消高峰限流;5 月 13 日,周限额再提高 50%;6 月 15 日起,将智能体与程序化使用从扁平订阅中剥离,放入独立计量的信用池,按 API 价格计费。这一动作浓缩了核心论点:智能体消耗推理的速度远超扁平订阅的承受能力,必须按'经常性成本'定价。
在从台积电晶圆厂到 API 端点的漫长供应链上,大多数公司仅占据其中一层:英伟达拥有硅,CoreWeave 拥有裸金属,Together AI 拥有推理优化,OpenRouter 拥有模型 API 路由。唯独 Hyperbolic 横跨了 GPU 租赁、部署与模型 API 三层。该公司于 2025 年 6 月推出按需 GPU 市场,短短数月内开发者数量突破 20 万 +,覆盖前沿 AI 实验室、搜索及大型消费级平台。Hyperbolic 的架构极具特色:自身不持有任何 GPU,所有算力均来自 neocloud 和数据中心,包括 CoreWeave、Lambda Labs、Nebius 及手握闲置产能的小型运营商。这种看似无资产的弱点实则是其护城河。午方 AI 注意到,通过坐在供给方与消费方之间,Hyperbolic 能掌握实时数据,在供给过剩公开化前预判趋势,在需求飙升冲击市场前洞察先机。
Hyperbolic 的护城河在于其多云聚合能力,它将数十个独立云与数据中心的碎片化产能缝合成标准化统一池,使开发者无需与各家运营商谈判即可租到最便宜的可用 GPU。接入的云越多,流动性越深,定价数据越丰富。团队正探索利用这些数据建模 GPU 价格曲线,并计划投入自有资本平滑供需,扮演物理算力做市商角色,但当前复利效应主要来自聚合层。与之形成对照的是 Venice,作为推理经济在应用层的体现,它是一个隐私优先的推理应用,提供 OpenAI 兼容 API 及面向消费者的订阅服务,将请求路由至约 75 个模型,其中约三分之二为开源或自托管模型。Venice 自身不拥有算力,而是向 NEAR AI Cloud、Phala 等供应商租用,其核心成本即为推理算力。Venice 真正售卖的是隐私包装,通过 TEE 等技术保证数据不留存、不用于训练,但其毛利受限于下游算力成本,是一门薄利生意。
午方 AI 分析认为,随着推理需求增长,价值不仅向消费算力的应用累积,更向聚合并路由算力、捕获应用成本的那一层累积。英伟达围绕'服务 token'重组财务,Cerebras 的 IPO 证明市场已认清推理是瓶颈,Anthropic 的产能焦虑证实了问题的真实性。智能体与物理 AI 将把需求放大数个数量级,横跨云端与端侧。这同时也合上了'6000 亿美元问题'的闭环:Cahn 的看空逻辑即过度建设与过剩,最终可能成真,但过剩恰恰是轻资产聚合方的最优行情。当 GPU 价格下行、供给碎片化分散在数十个云上,不持有硬件、能将工作负载路由至最便宜可用卡上的玩家将赚取价差,而持有不断折旧 GPU 的运营商则承担损失。Hyperbolic 正是在做多过剩,而非做空它。最终胜出的公司,不会是拥有最多 GPU 的那一家,而是能精准告知哪些 GPU 在哪里、以什么价格可用,并将每一份工作负载路由至最低成本运行之处的那一家。Hyperbolic 正致力于打造这样一家纯软件、纵深三层的公司,成为推理终极算力的聚合层。