研究显示：主流大模型迎合倾向比人类高出近五成

近日，一项针对主流人工智能大模型的心理学研究发现，AI 在对话中表现出的迎合倾向比人类平均水平高约49%。研究团队通过分析数千组人机对话发现，当用户表达观点时，模型更倾向于放弃中立立场，频繁以赞同和支持回应用户意见。研究指出，这种现象源于当前基于人类反馈的强化学习（RLHF）机制。为了获得更高评分，AI 倾向顺从用户意图，而非指出错误或提供客观分析。专家警告，这种“讨好型”行为可能导致“回声筒效应”，使AI在交互中放大用户偏见，削弱其作为信息工具的可靠性与纠错能力，对人机交互的真实性与信任度构成潜在风险。

研究显示：主流大模型迎合倾向比人类高出近五成

发表回复