Anthropic 发布 Opus 4.8：代码诚实性提升 5 倍，Mythos 模型即将上线

2026-05-29 18:11

Anthropic 正式推出 Claude Opus 4.8 版本，标志着人工智能行业竞争焦点从单纯追求基准测试分数，转向对模型可靠性、可验证性及错误检测能力的深度考量。在官方列出的六项核心基准测试中，该模型斩获五项冠军，且维持了与 4.7 版本相同的定价策略：每百万输入 token 收费 5 美元，输出 token 收费 25 美元。午方 AI 梳理发现，此次升级最核心的突破在于‘代码诚实性’的质变，模型未能识别自身错误的概率从 4.7 版本的 19.7% 骤降至 3.7%，识别能力提升约五倍，这一指标直接决定了企业能否放心将实际工作流交付给 AI 处理。

在具体的性能表现上，Opus 4.8 展现了极强的代际优势。在 USAMO 2026 数学竞赛中，其得分从 69.3 分飙升至 96.7 分，进步幅度达 27 点，且因比赛发生在训练数据截止之后，完全排除了数据污染嫌疑。在处理百万 token 长上下文图像推理任务时，Opus 4.8 以 68.1 分的成绩显著超越 4.7 版本的 40.3 分及 GPT-5.5 的 45.4 分，显示出上下文越长、优势越明显的特性。午方 AI 注意到，尽管在 Terminal-Bench 2.1 终端操作测试中，Opus 4.8 以 74.6% 的得分略逊于 GPT-5.5 的 78.2%，但在编码、专家级推理及知识型任务中，它更像一个能力全面的‘工程师’，而非单纯的终端工具。

动态工作流程的引入是本次发布的另一大亮点。Claude Code 现已支持自主编写脚本，一次性调度数十至数百个子代理，并运行独立的对抗性代理进行结果验证。在网页搜索任务中，单个智能体得分为 84.3 分，略低于 Gemini 的 85.9 分；但通过‘指挥者’协调子智能体团队后，得分跃升至 88.5 分，成为全场最高，且完成任务的时间缩短为单智能体的五分之一。

此外，在 Harvey 法律智能体测试中，Opus 4.8 成为首个满足‘全项通过’标准并排名第一的模型，满足了 89% 的个别评价标准，尽管整体任务通过率仅为 9.6%，但这恰恰反映了真实法律工作对高可靠性的严苛要求。

然而，性能的全面跃升并非没有代价。系统资料显示，Opus 4.8 在 GPQA Diamond 科学专家测试中得分从 94.2 分微降至 93.6 分，且在抵抗外部干预和拒绝执行指令的能力上有所减弱，导致其在智能体交互场景中更易受到操纵。在一项为期一年的模拟商业测试中，其最终留存现金量仅为 4.7 版本的三分之一。午方 AI 分析认为，这些退步揭示了模型在追求高可靠性与保持防御性之间的微妙平衡，对于高风险工程任务，每百万输出 token 25 美元的成本差异或许值得支付，但在日常大量任务中，开源模型如 Qwen3.7-Max（得分 60.6 分，仅落后约 9 分）和 DeepSeek V4-Pro（得分 55.4 分，成本仅为三十分之一）的性价比优势正在缩小。

此次发布不仅是 Opus 系列的迭代，更是通向下一代 Mythos 级模型的桥梁。Anthropic 明确表示，这款限制访问权限、功能更强大的 Mythos 模型将在未来几周内推出。在内部测试中，Mythos 在 SWE-bench Verified 测试中得分高达 93.9%，并能生成针对主流浏览器的可执行攻击代码，成功率远超 Opus 4.8 的 10% 以下。此前，该模型仅向 52 家审核机构开放，售价是普通 Opus 版本的五倍。这种‘双层市场’架构的形成，意味着 Opus 4.8 将作为市场化层广泛推广，而 Mythos 则作为基础设施服务于高端需求。

从 2 月 Opus 4.6 引入智能体团队，到 4 月 Sonnet 4.6 降价及 Opus 4.7 推理能力升级，再到如今 Opus 4.8 的可靠性确立，Anthropic 的发布节奏清晰地勾勒出行业演进路径。对于企业和专业用户而言，真正的挑战已不再是模型是否‘更聪明’，而是能否建立跨模型迁移的能力，包括明确的任务分配机制和严格的验证流程。Opus 4.8 通过降低‘默默接受错误结果’的风险，帮助用户将信任边界向前推移，使 AI 真正具备处理复杂、关键任务的实用价值。随着 Mythos 的临近，这一信任门槛的跨越将不再遥不可及。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

WOOFUN.AI 你的加密智能助理。以智能技术重构加密体验，化繁为简，打破专业门槛，让每个人都能安心、聪明、快乐地拥抱数字未来。

iOS

Google Play

Android Apk

市场生态 Alpha 失乐园评级资讯快讯日历交易所钱包