华盛顿州立大学研究发现 ChatGPT 在科学判断中存在显著不一致性

华盛顿州立大学(WSU)近日发布研究显示,ChatGPT 在处理复杂科学论断时常出现前后矛盾,推理过程更接近随机猜测。由副教授 Mesut Cicek 团队抽取自 2021 年以来的 719 条商业期刊研究假设,重复提交模型进行真伪判断后发现,ChatGPT 表面正确率约 80%,但剔除随机因素后实际有效率仅略高于掷硬币概率,研究团队将其评为“低分的 D 等成绩”。在识别错误陈述方面,该模型正确率仅为 16.4%。此外,10 次重复问答中仅约 73% 的回答保持一致,部分案例出现“真、假交替”现象。测试还显示,新版 ChatGPT-5 mini 与早期版本在该任务上的表现差距不大。研究人员提醒,生成式 AI 仍缺乏真实推理与理解能力,企业在使用时应保持谨慎并进行人工核查。

上一篇:

下一篇:

发表回复

登录后才能评论