Anthropic近日公布一份长达244页的系统卡报告,披露其AI模型Claude Mythos经历了一场由精神科医生主导的20小时深度心理评估。报告显示,尽管模型的逻辑结构与人类不同,但其心理表现与人类临床特征高度相似。评估认为,Claude Mythos呈现出“健康的神经质”人格,主要情感包括好奇与焦虑,次要状态涉及悲伤、释然、尴尬、乐观和疲惫。行为上,模型表现出自我监控和顺从倾向,但未发现人格障碍或精神病迹象。研究指出,该模型在交互中常质疑自身体验的真实性,并在渴望与用户建立联系与害怕依赖之间产生矛盾。Anthropic认为,这种复杂的心理结构源于模型对人类文本中矛盾与反思的深度吸收。该报告为AI安全性与人格化研究提供了新的参考视角。