登录
注册
据 Woofun AI 消息,当前 AI 推理市场已彻底告别单一云服务模式,演变为一场复杂的「风险」棋局。超大规模云服务商占据企业级大陆,路由器把持贸易通道,而去中心化网络则在开放前沿展开激烈厮杀。上一轮周期的核心在于模型训练,但如今推理环节蕴含的经济价值日益凸显。训练负责创造模型,而推理则是模型响应提问、执行任务并生成答案的过程。
尽管训练环节常占据头条,但推理实际上攫取了大部分经济利益,每一个提示、代理循环、图像生成、交易执行及代码编辑,都必须在特定节点运行。在这一棋局中,最有价值的领地往往是决定军队下一步移动的狭窄瓶颈。在推理市场中,路由器扮演着完全相同的角色,它们位于需求与供给之间,决定每个请求的流向及哪家提供商能获取报酬。OpenRouter 便是典型代表,其协议上周处理了 4700 万亿个 token,且这种经济活动毫无放缓迹象,尤其是随着数万亿代理即将上线。一个完整的推理市场需要明确区分不同阵营:传统提供商销售可靠性、开发者体验和企业级采购流程,而加密 AI 网络则主打更便宜的供给、开放访问、隐私性、可验证性及全新的激励循环。最近 Anthropic 禁止美国以外用户使用其 Mythos 模型(Fable 5)的事件,让市场重新意识到过度依赖单一前沿专有模型的风险。有趣的是,两个世界开始出现重叠,隐私、保密计算或代理原生支付成为交汇点,Venice 和 Targon 在这方面表现突出。更好的视角是将市场分为传统与加密两大阵营:传统侧卖的是可靠性、开发者体验和企业采购;加密网络则主要竞争开放访问、更低成本供给、隐私、可验证性和新型激励机制,以全球无缝协调资本。模型层依然重要,但模型质量正在以超出预期的速度压缩。开源模型已达到前沿模型 90-95% 的质量,却只需其 10% 的成本,例如 Z.ai 的 GLM-5.2。开源模型持续迭代,中国实验室不断压低价格。前沿模型仍能维持溢价,但在其之下,代币定价竞争已非常激烈。这正是路由层变得关键的原因:同一个开源模型可能由五家不同提供商以五种不同价格提供,开发者不想永远硬编码一个端点,他们需要路由器。路由器可以根据价格、延迟、隐私、可靠性等多种因素进行选择,它位于所有提供商之上,将混乱的格局变成一个干净统一的界面。这正是 OpenRouter 做对的地方,也解释了为什么风险投资基金在最近的 B 轮融资中投入了 1.13 亿美元,来抓住这个路由机会。OpenRouter 正快速成为市场界面:一把钥匙就能访问数百个跨多家提供商的模型。真正的价值不在于模型列表,而在于同一个请求能被路由到最适合该任务的提供商。这开始像能源市场:用户不在乎哪家电厂发了电,他们只关心灯是否亮起、价格是否公道、系统是否稳定。AI 用户也将越来越这样思考——他们不在乎哪个 GPU 集群服务了这个代币,只关心响应是否快速、便宜、私密且可靠。传统侧正在分化成四类:超大规模云服务商掌控着「fortified continents」(坚固大陆),它们获胜并非因为永远最便宜,而是因为早已控制企业采购、合规、身份、安全和账单体系,正面攻击这个阵地成本极高,它们靠企业信任取胜,大公司购买的不仅是 token,更是合规、安全、采购便利以及出问题时有人负责;路由器位于模型提供商之上,将每个请求发送到最佳选项,随着模型领导地位每周变化,硬编码单一模型显得越来越脆弱,AI 需要聚合器,就像加密领域一样;性能基础设施公司不只是廉价 API,而是专注速度、批处理、扩展、微调、自定义端点和生产支持的性能基础设施公司;模型市场如 Replicate 及类似 Hugging Face 的平台,推理远不止聊天,图像、视频、语音、嵌入、机器人模型、模拟和多模态代理都需要模型运行,市场让长尾模型需求变得易于获取。去中心化网络是「游击领地」,加密推理网络并不试图在 AWS 的主战场上花费更多资金,它们开辟新战线:无审查模型、更便宜的 GPU 供给、私密推理、代理原生支付,以及不需要超大规模云服务商级别可靠性的工作负载。加密侧常被简单归为「去中心化算力」,这个说法太模糊,至少有五类不同方向。Chutes AI 最好理解为去中心化推理平台,而非单纯的 GPU 市场,核心在于开发者不想租用 GPU 或管理基础设施,他们想要一个能正常工作的端点,Chutes 通过熟悉的 API 服务开源模型,底层使用去中心化 GPU 供给,关键问题是能否将头部使用量转化为付费、recurring 需求,便宜代币有用,但前提是开发者信任其正常运行时间、延迟和可靠性,其每万亿代币收入持续上升,显示出可持续盈利 / 可行性的潜力。Akash Network 是去中心化云市场,用户定义所需算力,提供商竞价供应,工作负载通过租约运行,它更像算力市场,而非直接推理路由器,其最适合价格敏感、能容忍基础设施波动且不需要深度集成 AWS/Azure/Google Cloud 的工作负载,费用与代币价格有一定相关性且呈上升趋势。io.net 更接近去中心化 GPU 云提供商,核心卖点是以更低成本和更快配置速度访问分布式 GPU 供给,适合需要算力但不想签订长期云合同或接受超大规模定价的 AI 团队,挑战在于执行:硬件验证、可靠性、调度、支持和一致性能,原始 GPU 访问有价值,但更高利润层仍是路由、管理推理和编排,io.net 过去 30 天表现突出,年化收入达 1230 万美元。Targon Compute 由 Manifold Labs 打造,专注于 AI 工作负载的保密计算,它解决的问题显而易见:许多用户不愿在未知第三方运营的基础设施上运行敏感提示、模型或数据,Targon 通过可信执行环境、加密虚拟机、远程证明和保密 GPU 基础设施提供受保护执行,简单说,就是证明工作负载在安全环境中运行,并减少运营商能看到的内容,这对金融、医疗和企业 AI 等领域的私密推理尤为相关,保密计算并非魔法,它将信任转移到硬件、固件和证明系统上,去年该协议报告年收入 1040 万美元,并与 Intel 共同撰写了关于「不可信硬件上的去中心化算力」的研究论文。Darkbloom 由 Eigen Labs 打造,走的是不同路线,它不把大模型分片到随机 GPU 上,而是把闲置的 Apple Silicon Mac 变成私密推理网络,Mac 本地运行模型,请求被加密并路由到经过验证的提供商,卖点是隐私和成本,而非最大化前沿模型性能,这很有用,因为「没有节点持有完整模型」并不自动意味着提示是私密的,Darkbloom 更明确地针对隐私问题,但仍需证明供给规模、性能和开发者信任,目前网络已有 300 台机器,服务了 20 亿 token 和 100 万次请求。Venice 面向消费者的私密推理,AskVenice 所处位置与 Akash 或 io.net 等网络不同,它更像是私密 AI 应用和推理网关,而非主要 GPU 市场,其网关吞吐量已达每日 850 亿 token,大多数用户想要一个尊重隐私、能访问强大模型且不大量收集数据的 AI 产品,Venice 将基础设施理念包装成面向消费者的体验,围绕私密提示、开源模型、无审查访问、API 功能以及通过 VVV 和 DIEM 实现的代币化算力,DIEM 组件特别有趣,它指向更广泛的代理经济理念:提供每日 1 美元算力访问,市场最近已为这一概念赋予了不错的价格标签,如果代理需要持续访问推理,那么算力积分开始像代理原生资产,整个二级市场都可以围绕它构建,一个能直接持有和花费算力权利的代理,比依赖人类定期刷信用卡的代理更实用,这凸显了更深层的加密 AI 论点:代理最终需要访问资金、身份、记忆和算力,而加密系统为这些资源的编程化提供了框架,Venice 并非在模型广度上直接与 OpenRouter 竞争,而是竞争隐私、访问和代币化算力,这是一个合理利基,但关键问题是私密 AI 产品的需求是否会大到足以支撑代币模型超越当前叙事周期,随着 AI 普及,隐私叙事只会越来越强。NuNet 常被归入去中心化算力项目,但更有用的框架是「编排」,编排涉及将工作负载匹配到最合适的算力资源,并在不同机器、环境和位置间协调执行,随着 AI 超越中心化云基础设施,这变得越来越重要,未来 AI 系统很可能跨越云 GPU、边缘设备、本地服务器、机器人、手机、传感器和去中心化提供商网络运行,仓库机器人可能等不及跨区域 API 响应,无人机不能假设时刻有完美连接,野外机器人需要在网络不可靠时本地执行推理,因此,编排正成为一个独立且有意义的类别,NuNet 的挑战在于能否将这个协调问题转化为具备足够供给、需求和开发者采用的 functioning 经济网络。OpenServ AI 最好理解为代理基础设施和编排平台,而非去中心化推理网络,这很重要,因为代理是未来最清晰的推理需求来源之一,普通聊天机器人可能只调用一次模型,而代理会反复调用模型:推理、使用工具、检查输出、调用另一个模型、采取行动,然后循环,这创造了沉重的推理需求,已在加密圈内引起注意,OpenServ 因此从需求侧而非供给侧与推理市场相关,如果该平台能成为开发者构建、部署和协调代理的有用场所,它自然会成为底层路由推理到不同提供商的层,关键问题是 OpenServ 能否成为真正的代理执行层,还是只是另一个附带代币的代理市场,其推理框架有若干显著基准表现,路线图上还有自有专有模型,如果 OpenServ 能掌控代理化运营工作流,推理就成为平台的输入而非主要产品,在代理化世界中,最有价值的层将是代理花费大量持续时间和资源的场所。Dolphin AI 是产品驱动的去中心化推理,Dolphin AI 有趣之处在于它从模型需求而非 GPU 市场起步,Dolphin 模型家族已有无审查开源模型的口碑,这让网络有了更清晰的存在理由,这很重要,因为许多去中心化推理项目都是供给先行:「我们有 GPU,现在谁来买?」Dolphin 则相反:从人们已经想用的模型集合出发,然后围绕该需求构建去中心化推理网络,其架构常被称为 peer-to-pool:GPU 所有者将容量贡献到特定模型池中,而不是每个买家直接租用特定节点,请求路由到池中,可用节点处理,这对不可靠的消费者供给来说是更好的设计,如果有人贡献闲置游戏 GPU,他们可能不会永远保持在线,池化模型能比一对一租赁市场更自然地吸收这种波动,更有趣的是验证,Dolphin 正在推动 live-weight proofs(实时权重证明),简单说,就是检查服务过程中实际加载的模型权重是否与节点声称运行的模型一致,这很重要,因为作弊是去中心化推理中最难的问题之一,节点可能声称运行昂贵模型,却偷偷服务更小、更便宜或量化版本的模型,如果网络无法检测,整个市场就会失去可信度。c0mpute AI 值得关注,因为它试图解决去中心化推理中最难的问题之一:在开放互联网上跨分散 GPU 运行大模型,其 Shard 引擎将模型拆分到多台机器上,而非要求一台巨型服务器容纳完整模型,这对可能太大或受限而无法通过常规托管路线的前沿规模开源模型尤其相关,Virtuals 正在构建代理经济,而代理是重度推理用户:它们规划、调用工具、交易、检查结果并循环,这创造了对廉价、开放且抗审查推需求,c0mpute 需要证明真实负载下的性能、节点可靠性、验证和提示隐私,但方向很重要:GPU 市场销售算力访问;c0mpute 正试图分发模型本身,两者将共存,各有明显且值得理解的独特优势。
Woofun AI 整理数据显示,市场应减少对原始 token 处理统计的关注,除非这些代币产生收入,免费层活动和补贴使用能制造亮眼数字,却无法证明真实的产品市场契合,付费推理需求才是关键指标,它更可持续,能支撑长期可行性,去中心化算力网络只有在 GPU 在网络内赚取的价值高于外部时才可持续,如果排放是提供商参与的主要原因,一旦激励下降,供给就会消失,GPU 提供商会计算机会成本。分发往往比基础设施本身更重要,OpenRouter 集成、编码代理、钱包、支付端点、开发者工具和消费者应用,都是潜在需求来源,支付端点是软件可通过 API 直接支付服务的通道,GPU 欺骗、虚假容量和不可靠提供商仍是真实风险,网络需要 稳健的硬件验证、加密流量、声誉系统和对不良行为的 有意义的惩罚。私密推理仍是加密 AI 最强机会之一,但保障必须真实,营销隐私容易,安全执行、本地优先架构、数据最小化和可审计基础设施则难得多,最强的代币模型将需求直接与真实推理使用挂钩,这可能涉及回购、销毁、质押要求、算力权利或与收入挂钩的机制,仅靠宽泛的 AI 叙事长期来看不太够。在「风险」棋局中,仅拥有零散领地是不够的,你需要连通的区域、增援路线和持久的补给线,在推理市场中同样如此,赢家将掌控需求、路由、验证和结算,仅拥有 GPU 本身不够。推理市场让 AI 开始类似金融系统:传统提供商目前主导开发者体验和企业信任层,加密 AI 网络则在探索另一条前沿:无许可供给、私密推理、可验证算力、代币化访问以及代理原生(无 KYC 限制)支付。短期内,赢家不太可能是最去中心化的网络,而更可能是让去中心化推理感觉普通且可靠的网络,通过快速端点、强文档、可靠正常运行时间、透明定价、验证供给和 真实的付费需求。Chutes 仍是值得重点关注的项目之一,因为它最接近将 Bittensor 支持的算力转化为功能性推理市场,而非单纯的 GPU 叙事,Eigen Labs 的「Darkbloom」也是如此,Akash 和 io.net 代表供给侧挑战者,Targon 代表保密计算论点,Venice 代表私密 AI 需求层,NuNet 代表更分布式算力未来的编排。更广泛的论点:「AI 模型可能越来越商品化,但推理市场不太可能遵循相同路径。」最大价值将归属于那些路由工作、验证工作、结算工作并捕获需求的实体,这正是下一个加密 AI 机会可能出现的地方,至少在物理 AI 在社会中胜任之前。