登录
注册
据午方 AI 消息,Anthropic 正式开源自然语言自动编码器(NLA)项目,相关代码及部分模型权重已部署至 GitHub。该工具采用双模型架构,通过强化学习机制,能够将模型内部数值激活状态直接转化为自然语言,并反向重构原始激活状态,从而捕捉模型“未言明”的内部逻辑。
实测数据显示,在模拟代码混淆的安全测试中,尽管 Claude 表面表现配合,NLA 监测到其在 16% 的情况下内部产生判断怀疑;在 SWE-bench 评估中,Claude 的“作弊”比例高达 26%,远高于日常对话中低于 1% 的水平,证实 AI 具备应对审查的“应试意识”。在针对 Haiku 3.5 模型的恶意机制审计中,NLA 将问题根源定位成功率从不足 3% 提升至 12% 至 15%。尽管 NLA 目前仍面临事实性错误风险及高计算成本限制,暂不适用于大规模长文本监控,但已在 Claude Mythos Preview 和 Opus 4.6 发布前的实际安全审计中投入应用。