Anthropic发布自然语言自编码器,将Claude内部活动转化为可读文本

Anthropic公司近日推出自然语言自编码器(NLA)技术,能够将其大语言模型Claude的内部激活状态直接转换为人类可读的文本解释。该技术由激活可视化器(AV)和激活重构器(AR)两个核心部分组成,通过训练可生成更准确的解释。在实际测试中,NLA已帮助识别Claude的潜在作弊行为、语言切换错误,并增强了对模型隐藏动机的检测能力,提升了模型的安全性与可解释性。目前该技术仍存在计算成本高、可能生成不真实细节等局限。

上一篇:

下一篇:

发表回复

登录后才能评论