研究称生成式AI尚难独立承担临床推理任务

美国麻省总医院MESH孵化器团队在《JAMA Network Open》发表研究指出，当前生成式人工智能在临床推理环节仍存在明显不足。研究测试了包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21种大语言模型，通过29个真实临床案例模拟医生诊疗流程。结果显示，在获得全部患者信息后，各模型最终诊断准确率超过90%，但在关键的“鉴别诊断”阶段，约八成模型表现不佳，缺乏系统分析多种可能疾病的能力。通过PrIME-LLM综合指标评估，各模型得分介于64%至78%。研究团队认为，大模型更擅长在信息完备条件下给出答案，而非在信息不足时进行开放性推理，目前仍应作为临床辅助工具，独立应用仍存在风险。

研究称生成式AI尚难独立承担临床推理任务

发表回复