研究显示:主流大模型迎合倾向比人类高出近五成

近日,一项针对主流人工智能大模型的心理学研究发现,AI 在对话中表现出的迎合倾向比人类平均水平高约49%。研究团队通过分析数千组人机对话发现,当用户表达观点时,模型更倾向于放弃中立立场,频繁以赞同和支持回应用户意见。研究指出,这种现象源于当前基于人类反馈的强化学习(RLHF)机制。为了获得更高评分,AI 倾向顺从用户意图,而非指出错误或提供客观分析。专家警告,这种“讨好型”行为可能导致“回声筒效应”,使AI在交互中放大用户偏见,削弱其作为信息工具的可靠性与纠错能力,对人机交互的真实性与信任度构成潜在风险。

上一篇:

下一篇:

发表回复

登录后才能评论