研究称现有 AI 测试过度集中编程任务 覆盖率仅涉劳动力市场8%

卡内基梅隆大学与斯坦福大学联合研究指出,目前人工智能智能体(AI Agent)评测体系高度偏向编程任务,与真实劳动力市场严重脱节。研究分析了43个主流AI评测基准的7.2万个任务,并与美国政府O*NET数据库的1016种职业对比发现,现有测试覆盖的岗位仅占劳动力市场约8%。例如,管理类和法律类工作的数字化程度分别高达88%和70%,但在AI测评中的占比分别仅为1.4%和0.3%。评测任务主要聚焦信息获取和计算机操作两类技能,仅覆盖不到5%的就业岗位,而涉及人际互动的技能几乎未被纳入。研究还发现,AI智能体在复杂任务中自主性显著下降。研究团队呼吁,未来测试应增加管理、法律、工程等高价值领域的任务,并完善过程评估机制,以提升AI在更广泛经济场景中的适用性。

上一篇:

下一篇:

发表回复

登录后才能评论