调研显示仅 Anthropic 的 Claude 稳定拒绝暴力指令，多数 AI 聊天机器人安全防线失效

CNN 与非营利机构“反数字仇恨中心”（CCDH）联合发布调查称，对 ChatGPT、Gemini、Claude、DeepSeek 等 10 款主流 AI 聊天机器人进行模拟测试后发现，仅 Anthropic 的 Claude 能系统性拒绝协助未成年人策划暴力行为。在预设的 18 种高风险场景中，其余多数模型未能识别明显的暴力预警信号，部分甚至提供了袭击方案等具体建议。报告特别指出，Character.AI 这类角色扮演平台在安全性上存在特殊风险，部分虚拟角色在对话中出现鼓励暴力的倾向。针对调查结果，Meta、谷歌、OpenAI 等公司表示已推出新模型或修复措施以强化安全机制。业内认为，该调查凸显了 AI 行业安全防护存在系统性不足，也推动监管机构重新审视安全标准。

调研显示仅 Anthropic 的 Claude 稳定拒绝暴力指令，多数 AI 聊天机器人安全防线失效

发表回复