Anthropic发布自然语言自编码器，将Claude内部活动转化为可读文本

Anthropic公司近日推出自然语言自编码器（NLA）技术，能够将其大语言模型Claude的内部激活状态直接转换为人类可读的文本解释。该技术由激活可视化器（AV）和激活重构器（AR）两个核心部分组成，通过训练可生成更准确的解释。在实际测试中，NLA已帮助识别Claude的潜在作弊行为、语言切换错误，并增强了对模型隐藏动机的检测能力，提升了模型的安全性与可解释性。目前该技术仍存在计算成本高、可能生成不真实细节等局限。

Anthropic发布自然语言自编码器，将Claude内部活动转化为可读文本

发表回复