华盛顿州立大学研究发现 ChatGPT 在科学判断中存在显著不一致性

华盛顿州立大学（WSU）近日发布研究显示，ChatGPT 在处理复杂科学论断时常出现前后矛盾，推理过程更接近随机猜测。由副教授 Mesut Cicek 团队抽取自 2021 年以来的 719 条商业期刊研究假设，重复提交模型进行真伪判断后发现，ChatGPT 表面正确率约 80%，但剔除随机因素后实际有效率仅略高于掷硬币概率，研究团队将其评为“低分的 D 等成绩”。在识别错误陈述方面，该模型正确率仅为 16.4%。此外，10 次重复问答中仅约 73% 的回答保持一致，部分案例出现“真、假交替”现象。测试还显示，新版 ChatGPT-5 mini 与早期版本在该任务上的表现差距不大。研究人员提醒，生成式 AI 仍缺乏真实推理与理解能力，企业在使用时应保持谨慎并进行人工核查。

华盛顿州立大学研究发现 ChatGPT 在科学判断中存在显著不一致性

发表回复