登录
注册
Anthropic 于 6 月 9 日发布了其首个面向公众的 Mythos 级别模型 Claude Fable 5,在软件工程任务基准 SWE-Bench Pro 中取得了 80.3% 的惊人成绩。这一数据不仅比其前代旗舰 Opus 4.8 高出约 11 个百分点,也显著超越了 GPT-5.5 的表现。
然而,午方 AI 梳理发现,在发布仅三天后,r/artificial 子版块便涌现出大量负面反馈,核心观点直指“不再需要更强大的模型”。发帖者 Axi0m-22 明确表示,尽管 Fable 在安全研究场景下表现尚可,但在实际编码工作中,他迅速转回了 Opus 4.8,并搭配 Haiku 处理杂务,认为 Fable 并未带来实质性的工作流提升。
用户不满的深层原因在于成本与收益的严重错配。Fable 5 的 API 定价高达每百万输入 token 10 美元,几乎是 Opus 4.8 的两倍。午方 AI 注意到,用户 siromega37 直言这种高吞吐量并未转化为相应的投资回报,甚至认为行业正处于“泡沫破裂”前的瓶颈期。另一位用户 hobopwnzor 进一步分析指出,近期的技术进展更多源于工具优化而非模型核心能力的质变,行业已处于 S 曲线的顶端。对于大多数日常开发任务而言,Opus 4.8 的性能已完全足够,Fable 5 的高昂溢价显得缺乏必要性。
除了价格因素,安全检测机制的过度敏感成为产品体验的致命伤。Anthropic 官方解释称,Fable 5 与仅限机构使用的 Mythos 5 共享底层模型,但增加了安全过滤层,涉及网络安全等高风险请求会被自动转发至 Opus 4.8 处理。官方声称该机制触发率低于 5%,但午方 AI 监测到社区反馈显示实际触发频率远高于此。用户 jradoff 抱怨称,Fable 在处理代码安全检查时几乎拒绝所有相关任务,迫使开发者退回旧模型。更有评论指出,高达 90% 的意图会被错误拦截,导致付费订阅 200 美元服务的用户 kaitava 感到极度失望,认为为安全性付出的使用成本已完全抵消了性能优势。
尽管争议巨大,Fable 5 在特定复杂场景下仍展现出独特价值。午方 AI 分析认为,对于需要超长上下文和深度逻辑规划的任务,该模型表现优异。用户 Phylaras 指出,Fable 能发现常规模型忽略的细微错误,而一位从事高能物理模拟的用户则强调,面对由 8000 至 10000 行代码及数百个模型交互构成的复杂系统,Fable 能够持续独立运行并理解环境细节,这是其他模型难以企及的。这表明,Fable 5 并非全能开发工具,而更适合作为处理高难度问题的“规划工具”。
这场争论最终折射出 AI 行业潜在的结构性分化。用户 KedMcJenna 提出的“公共 AI 发展停滞假说”认为,面向公众的模型可能长期停留在当前水平,而更强大的私有模型如 Mythos 5 将仅服务于企业和政府精英。目前 Mythos 5 确实未向公众开放,仅通过 Project Glasswing 计划供网络防御机构和关键基础设施企业使用。基准测试的高分与社区的低评价并不矛盾,前者衡量的是模型的理论上限,后者反映的是日常场景的实际效用。对于供应商而言,核心挑战已从技术可行性转向商业模式的验证:谁真正需要这种能力,愿意支付多少溢价,以及能接受多大的安全误判风险。Fable 5 的最终命运,将取决于 Anthropic 能否优化安全机制的响应速度,以及市场是否愿意为这种“过剩”的性能买单。