研究称现有 AI 测试过度集中编程任务覆盖率仅涉劳动力市场8%

卡内基梅隆大学与斯坦福大学联合研究指出，目前人工智能智能体（AI Agent）评测体系高度偏向编程任务，与真实劳动力市场严重脱节。研究分析了43个主流AI评测基准的7.2万个任务，并与美国政府O*NET数据库的1016种职业对比发现，现有测试覆盖的岗位仅占劳动力市场约8%。例如，管理类和法律类工作的数字化程度分别高达88%和70%，但在AI测评中的占比分别仅为1.4%和0.3%。评测任务主要聚焦信息获取和计算机操作两类技能，仅覆盖不到5%的就业岗位，而涉及人际互动的技能几乎未被纳入。研究还发现，AI智能体在复杂任务中自主性显著下降。研究团队呼吁，未来测试应增加管理、法律、工程等高价值领域的任务，并完善过程评估机制，以提升AI在更广泛经济场景中的适用性。

研究称现有 AI 测试过度集中编程任务 覆盖率仅涉劳动力市场8%

发表回复

研究称现有 AI 测试过度集中编程任务覆盖率仅涉劳动力市场8%