推理成稀缺资源，Hyperbolic 聚合 20 万 + 开发者捕获价值

2026-06-09 09:37

2023 年 Sequoia 的 David Cahn 提出的'2000 亿美元问题'，揭示了 AI 基础设施建设中资本投入与终端收入之间的巨大鸿沟。当时每投入 1 美元购买 GPU，还需额外支出 1 美元用于数据中心供电，这意味着每年 GPU 资本支出需产生约 2000 亿美元收入才能回本。即便在乐观假设下，投入与终端客户实际付费之间仍存在超过 1250 亿美元的缺口。这一担忧直指 GPU 可能因超前于真实需求而被过度建设。一年后的 2024 年，随着超大规模厂商资本支出膨胀，Cahn 将这一缺口重新定义为'6000 亿美元问题'，看空逻辑收敛为：过度建设导致供给过剩，进而烧毁资本。

然而，填补这一窟窿的答案并未出现在训练侧，而是出现在推理（inference）侧，市场仅在过去几周才开始将其计入定价。

Cerebras 的上市成为市场觉醒的标志性事件，其 IPO 获得 20 倍超额认购，定价接近周三最终加价的两倍。这种狂热并非源于对'下一个英伟达杀手'的押注，而是市场终于意识到 AI 真正的瓶颈在于推理而非训练。Cerebras 的核心优势在于其专为极快推理设计的芯片架构。与仅发生一次的训练不同，推理是随使用量扩张的经常性需求，每一次 Claude 回答问题或智能体（agent）执行任务都在持续消耗算力。J.P. Morgan 估算推理市场规模是训练的 10 到 50 倍。当机器开始执行由其他机器下达的任务，即进入智能体式扩张阶段，推理需求将不再随用户数线性增长，而是随算力本身指数级扩张。

英伟达最新财报电话会进一步确认了这一趋势。Jensen Huang 明确指出 AI 需求正呈抛物线式增长，原因是智能体 AI 已经到来，主流 AI 已从一次性推理过渡到逻辑推理，再进入能自主调用工具、编排任务的智能体阶段。Huang 强调'Tokens 现在是有利可图的'，在 AI 时代，算力直接等同于收入和利润。这一判断重塑了整个行业逻辑：训练是一次性成本，推理则是经常性成本，且当前瓶颈在推理。英伟达据此重组了财报口径，将业务拆分为数据中心与边缘计算两大平台。数据中心当季营收约 750 亿美元，同比增长 92%，其中超大规模（Hyperscale）约 380 亿美元，环比增长 12%；AI 云、工业与企业（ACIE）约 370 亿美元，环比增长 31%。全新的边缘计算板块营收 64 亿美元，同比增长 29%，覆盖智能体 AI 和物理 AI 运行的终端，如 PC、工作站、AI-RAN 基站、机器人和汽车。尽管边缘目前占总收入不到 8%，但英伟达已将其提升至与数据中心并列的'第二平台'，标志着推理正在分裂为云端推理与端点推理两条战线。

午方 AI 梳理发现，在云端推理这一核心战场，Anthropic 已成为行业风向标。其使用量远超预先配置的产能，关于 Claude 被'脑叶切除'的抱怨刷屏全网，包括回复限流、推理变慢及上下文窗口被压缩。解决方案是赤裸裸的算力堆叠：2026 年 5 月，Anthropic 将从 SpaceX 手中接管整个 Colossus 1 数据中心，该中心拥有 22 万 + 张英伟达 GPU 和 300+ 兆瓦电力，并专门用于推理而非训练。这一产能解锁引发了一系列限额变动信号：5 月 6 日，Anthropic 将 Claude Code 的五小时限额翻倍并取消高峰限流；5 月 13 日，周限额再提高 50%；6 月 15 日起，将智能体与程序化使用从扁平订阅中剥离，放入独立计量的信用池，按 API 价格计费。这一动作浓缩了核心论点：智能体消耗推理的速度远超扁平订阅的承受能力，必须按'经常性成本'定价。

在从台积电晶圆厂到 API 端点的漫长供应链上，大多数公司仅占据其中一层：英伟达拥有硅，CoreWeave 拥有裸金属，Together AI 拥有推理优化，OpenRouter 拥有模型 API 路由。唯独 Hyperbolic 横跨了 GPU 租赁、部署与模型 API 三层。该公司于 2025 年 6 月推出按需 GPU 市场，短短数月内开发者数量突破 20 万 +，覆盖前沿 AI 实验室、搜索及大型消费级平台。Hyperbolic 的架构极具特色：自身不持有任何 GPU，所有算力均来自 neocloud 和数据中心，包括 CoreWeave、Lambda Labs、Nebius 及手握闲置产能的小型运营商。这种看似无资产的弱点实则是其护城河。午方 AI 注意到，通过坐在供给方与消费方之间，Hyperbolic 能掌握实时数据，在供给过剩公开化前预判趋势，在需求飙升冲击市场前洞察先机。

Hyperbolic 的护城河在于其多云聚合能力，它将数十个独立云与数据中心的碎片化产能缝合成标准化统一池，使开发者无需与各家运营商谈判即可租到最便宜的可用 GPU。接入的云越多，流动性越深，定价数据越丰富。团队正探索利用这些数据建模 GPU 价格曲线，并计划投入自有资本平滑供需，扮演物理算力做市商角色，但当前复利效应主要来自聚合层。与之形成对照的是 Venice，作为推理经济在应用层的体现，它是一个隐私优先的推理应用，提供 OpenAI 兼容 API 及面向消费者的订阅服务，将请求路由至约 75 个模型，其中约三分之二为开源或自托管模型。Venice 自身不拥有算力，而是向 NEAR AI Cloud、Phala 等供应商租用，其核心成本即为推理算力。Venice 真正售卖的是隐私包装，通过 TEE 等技术保证数据不留存、不用于训练，但其毛利受限于下游算力成本，是一门薄利生意。

午方 AI 分析认为，随着推理需求增长，价值不仅向消费算力的应用累积，更向聚合并路由算力、捕获应用成本的那一层累积。英伟达围绕'服务 token'重组财务，Cerebras 的 IPO 证明市场已认清推理是瓶颈，Anthropic 的产能焦虑证实了问题的真实性。智能体与物理 AI 将把需求放大数个数量级，横跨云端与端侧。这同时也合上了'6000 亿美元问题'的闭环：Cahn 的看空逻辑即过度建设与过剩，最终可能成真，但过剩恰恰是轻资产聚合方的最优行情。当 GPU 价格下行、供给碎片化分散在数十个云上，不持有硬件、能将工作负载路由至最便宜可用卡上的玩家将赚取价差，而持有不断折旧 GPU 的运营商则承担损失。Hyperbolic 正是在做多过剩，而非做空它。最终胜出的公司，不会是拥有最多 GPU 的那一家，而是能精准告知哪些 GPU 在哪里、以什么价格可用，并将每一份工作负载路由至最低成本运行之处的那一家。Hyperbolic 正致力于打造这样一家纯软件、纵深三层的公司，成为推理终极算力的聚合层。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

WOOFUN.AI 你的加密智能助理。以智能技术重构加密体验，化繁为简，打破专业门槛，让每个人都能安心、聪明、快乐地拥抱数字未来。

iOS

Google Play

Android Apk

市场生态 Alpha 失乐园评级资讯快讯日历交易所钱包