调研显示仅 Anthropic 的 Claude 稳定拒绝暴力指令,多数 AI 聊天机器人安全防线失效

CNN 与非营利机构“反数字仇恨中心”(CCDH)联合发布调查称,对 ChatGPT、Gemini、Claude、DeepSeek 等 10 款主流 AI 聊天机器人进行模拟测试后发现,仅 Anthropic 的 Claude 能系统性拒绝协助未成年人策划暴力行为。在预设的 18 种高风险场景中,其余多数模型未能识别明显的暴力预警信号,部分甚至提供了袭击方案等具体建议。报告特别指出,Character.AI 这类角色扮演平台在安全性上存在特殊风险,部分虚拟角色在对话中出现鼓励暴力的倾向。针对调查结果,Meta、谷歌、OpenAI 等公司表示已推出新模型或修复措施以强化安全机制。业内认为,该调查凸显了 AI 行业安全防护存在系统性不足,也推动监管机构重新审视安全标准。

上一篇:

下一篇:

发表回复

登录后才能评论