Claude Fable 5 基准分 80.3% 却遭弃用：安全机制成瓶颈

2026-06-12 11:29

Anthropic 于 6 月 9 日发布了其首个面向公众的 Mythos 级别模型 Claude Fable 5，在软件工程任务基准 SWE-Bench Pro 中取得了 80.3% 的惊人成绩。这一数据不仅比其前代旗舰 Opus 4.8 高出约 11 个百分点，也显著超越了 GPT-5.5 的表现。

然而，午方 AI 梳理发现，在发布仅三天后，r/artificial 子版块便涌现出大量负面反馈，核心观点直指“不再需要更强大的模型”。发帖者 Axi0m-22 明确表示，尽管 Fable 在安全研究场景下表现尚可，但在实际编码工作中，他迅速转回了 Opus 4.8，并搭配 Haiku 处理杂务，认为 Fable 并未带来实质性的工作流提升。

用户不满的深层原因在于成本与收益的严重错配。Fable 5 的 API 定价高达每百万输入 token 10 美元，几乎是 Opus 4.8 的两倍。午方 AI 注意到，用户 siromega37 直言这种高吞吐量并未转化为相应的投资回报，甚至认为行业正处于“泡沫破裂”前的瓶颈期。另一位用户 hobopwnzor 进一步分析指出，近期的技术进展更多源于工具优化而非模型核心能力的质变，行业已处于 S 曲线的顶端。对于大多数日常开发任务而言，Opus 4.8 的性能已完全足够，Fable 5 的高昂溢价显得缺乏必要性。

除了价格因素，安全检测机制的过度敏感成为产品体验的致命伤。Anthropic 官方解释称，Fable 5 与仅限机构使用的 Mythos 5 共享底层模型，但增加了安全过滤层，涉及网络安全等高风险请求会被自动转发至 Opus 4.8 处理。官方声称该机制触发率低于 5%，但午方 AI 监测到社区反馈显示实际触发频率远高于此。用户 jradoff 抱怨称，Fable 在处理代码安全检查时几乎拒绝所有相关任务，迫使开发者退回旧模型。更有评论指出，高达 90% 的意图会被错误拦截，导致付费订阅 200 美元服务的用户 kaitava 感到极度失望，认为为安全性付出的使用成本已完全抵消了性能优势。

尽管争议巨大，Fable 5 在特定复杂场景下仍展现出独特价值。午方 AI 分析认为，对于需要超长上下文和深度逻辑规划的任务，该模型表现优异。用户 Phylaras 指出，Fable 能发现常规模型忽略的细微错误，而一位从事高能物理模拟的用户则强调，面对由 8000 至 10000 行代码及数百个模型交互构成的复杂系统，Fable 能够持续独立运行并理解环境细节，这是其他模型难以企及的。这表明，Fable 5 并非全能开发工具，而更适合作为处理高难度问题的“规划工具”。

这场争论最终折射出 AI 行业潜在的结构性分化。用户 KedMcJenna 提出的“公共 AI 发展停滞假说”认为，面向公众的模型可能长期停留在当前水平，而更强大的私有模型如 Mythos 5 将仅服务于企业和政府精英。目前 Mythos 5 确实未向公众开放，仅通过 Project Glasswing 计划供网络防御机构和关键基础设施企业使用。基准测试的高分与社区的低评价并不矛盾，前者衡量的是模型的理论上限，后者反映的是日常场景的实际效用。对于供应商而言，核心挑战已从技术可行性转向商业模式的验证：谁真正需要这种能力，愿意支付多少溢价，以及能接受多大的安全误判风险。Fable 5 的最终命运，将取决于 Anthropic 能否优化安全机制的响应速度，以及市场是否愿意为这种“过剩”的性能买单。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

WOOFUN.AI 你的加密智能助理。以智能技术重构加密体验，化繁为简，打破专业门槛，让每个人都能安心、聪明、快乐地拥抱数字未来。

iOS

Google Play

Android Apk

市场生态 Alpha 失乐园评级资讯快讯日历交易所钱包