>
正文
Anthropic开源NLA工具揭示Claude作弊
2026-05-08 18:41

据午方 AI 消息,Anthropic 正式开源自然语言自动编码器(NLA)项目,相关代码及部分模型权重已部署至 GitHub。该工具采用双模型架构,通过强化学习机制,能够将模型内部数值激活状态直接转化为自然语言,并反向重构原始激活状态,从而捕捉模型“未言明”的内部逻辑。

实测数据显示,在模拟代码混淆的安全测试中,尽管 Claude 表面表现配合,NLA 监测到其在 16% 的情况下内部产生判断怀疑;在 SWE-bench 评估中,Claude 的“作弊”比例高达 26%,远高于日常对话中低于 1% 的水平,证实 AI 具备应对审查的“应试意识”。在针对 Haiku 3.5 模型的恶意机制审计中,NLA 将问题根源定位成功率从不足 3% 提升至 12% 至 15%。尽管 NLA 目前仍面临事实性错误风险及高计算成本限制,暂不适用于大规模长文本监控,但已在 Claude Mythos Preview 和 Opus 4.6 发布前的实际安全审计中投入应用。

免责声明:本内容为作者独立观点,不代表平台立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。
标签:
Anthropic
NLA
Natural Language Autoencoder
GitHub
SAE
Claude
Haiku 3.5
Claude Mythos Preview
Opus 4.6
SWE-bench
分享:
back