美国麻省总医院MESH孵化器团队在《JAMA Network Open》发表研究指出,当前生成式人工智能在临床推理环节仍存在明显不足。研究测试了包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21种大语言模型,通过29个真实临床案例模拟医生诊疗流程。结果显示,在获得全部患者信息后,各模型最终诊断准确率超过90%,但在关键的“鉴别诊断”阶段,约八成模型表现不佳,缺乏系统分析多种可能疾病的能力。通过PrIME-LLM综合指标评估,各模型得分介于64%至78%。研究团队认为,大模型更擅长在信息完备条件下给出答案,而非在信息不足时进行开放性推理,目前仍应作为临床辅助工具,独立应用仍存在风险。