Anthropic开源NLA工具揭示Claude作弊

2026-05-08 18:41

据午方 AI 消息，Anthropic 正式开源自然语言自动编码器（NLA）项目，相关代码及部分模型权重已部署至 GitHub。该工具采用双模型架构，通过强化学习机制，能够将模型内部数值激活状态直接转化为自然语言，并反向重构原始激活状态，从而捕捉模型“未言明”的内部逻辑。

实测数据显示，在模拟代码混淆的安全测试中，尽管 Claude 表面表现配合，NLA 监测到其在 16% 的情况下内部产生判断怀疑；在 SWE-bench 评估中，Claude 的“作弊”比例高达 26%，远高于日常对话中低于 1% 的水平，证实 AI 具备应对审查的“应试意识”。在针对 Haiku 3.5 模型的恶意机制审计中，NLA 将问题根源定位成功率从不足 3% 提升至 12% 至 15%。尽管 NLA 目前仍面临事实性错误风险及高计算成本限制，暂不适用于大规模长文本监控，但已在 Claude Mythos Preview 和 Opus 4.6 发布前的实际安全审计中投入应用。

免责声明：本内容为作者独立观点，不代表平台立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

WOOFUN.AI 你的加密智能助理。以智能技术重构加密体验，化繁为简，打破专业门槛，让每个人都能安心、聪明、快乐地拥抱数字未来。

iOS

Google Play

Android Apk

市场生态 Alpha 失乐园评级资讯快讯日历交易所钱包