从Prompt到Context到Harness AI工程三次范式转移

2026 年初，Anthropic 和 OpenAI 几乎同一周各自发布了一篇实践文章，讲述他们如何让 AI 把复杂任务真正做完。结合两篇学术论文和社区讨论，一个完整的图景浮现出来：过去三年，AI 工程师解决问题的方式，已经彻底换了三代。

第一代：教模型”好好说话”（2023–2024）

最早大家发现，和 AI 说话是有技巧的。同一个问题，换个问法，答案质量差距巨大。

于是工程师们开始研究怎么”提问”：措辞怎么选、要不要给几个例子、要不要让模型一步步推理……这就是所谓的 Prompt Engineering（提示词工程）。核心问题只有一个：怎么把话说清楚，让模型给出更好的回答。

这就像你新雇了一个员工，最重要的事是”怎么跟他沟通”。

第二代：把模型的”视野”管起来（2025）

光靠措辞不够了。AI 需要”看到”更多信息才能完成任务——你想让它帮你写分析报告，它得先能看到相关资料；你想让它接入工具，它得知道能用什么。

这一年，Context Engineering（上下文工程） 成了热词。Shopify 的 CEO Tobi 那句”上下文工程是新技能”广为流传。

工程师们开始把 AI 每次”看到”的内容当成系统来设计：从哪里检索资料、对话历史保留多少、可以用哪些工具……核心问题升级成：如何管理模型在一次任务里能看到的全部信息。

如果说第一代是”教他说话”，第二代就是”给他准备好资料”。

第三代：给模型搭一个”可以独立运转的环境”（2026）

现在问题变了。AI 已经可以自主工作好几个小时，甚至好几天。

一次性把话说清楚不够用，帮它备好资料也不够用——你需要的是一整套可以让它长时间稳定运转的基础设施。Anthropic 和 OpenAI 给这套东西取了同一个名字：Harness Engineering（脚手架工程）。

这一代解决的核心问题是：如何设计 AI 的整个”运行环境”，包括多个 AI 互相协作、自动检查对错、遵守规则不越界，以及记住过去学到的东西。

如果第一代是”教他说话”，第二代是”给他备料”，第三代就是”给他建一家公司”。

Anthropic 的做法：让 AI 互相”挑毛病”

Anthropic 工程师的实验揭示了一个反直觉的发现：让 AI 检查自己的工作，基本没用。

无论做得好不好，AI 给自己打的分永远是高分。

解决方法是把”做事”和”检查”拆成两个独立的 AI：一个负责生成，一个负责评估。而且评估不是口头打分，而是真实操作——点击页面按钮、填表单、验证功能是否正常，然后从设计质量、原创性、细节打磨、功能完整度四个维度给出评分。

结果非常直观：

方式	时间	花费	结果
单个 AI 自己做	20 分钟	9 美元	基本不能用
生成 + 评估 AI 协作	6 小时	200 美元	完整游戏，含动画和 AI 集成

这套”生成-评估”循环迭代了 5 到 15 轮。第十轮时，AI 甚至自己设计出了一个 3 D 空间导航方案。

更关键的发现是：随着模型变强，有些”脚手架”可以拆掉，但“评估器”永远不能拆。AI 自己对自己的盲点会一直存在。

OpenAI 的做法：百万行代码，工程师一行没写

OpenAI 的实验更激进：用了五个月，一个小团队借助 AI 构建了将近百万行代码的生产级系统。工程师没有手写过一行业务代码。

但这里有个关键细节：不是把任务扔给 AI 就完事了。工程师其实在做三件事：

设计开发环境——搭好让 AI 工作的”舞台”
用结构化的方式表达目标——告诉 AI 要做什么
给 AI 持续反馈——让它知道对不对

最核心的一点是架构治理：整个代码库被严格分成六层，每层之间的边界不是靠约定俗成，而是直接写成规则，由代码自动执行。AI 如果提交了违反架构的代码，系统会自动拒绝，不需要人来盯着。

这就是让百万行代码”不失控”的秘密：不是靠 AI 自律，而是靠规则机械化执行。

被忽视的第三块：记忆

Anthropic 讲了评估闭环，OpenAI 讲了架构约束，但两家都没深入讨论一件事：记忆。

两篇学术论文填补了这个空白。

第一篇提出了一套多个 AI 共享知识库的方案，核心问题是：当一个 AI 写入了错误信息（比如因为”幻觉”），怎么防止它污染整个知识库？

答案是引入”声誉机制”——每个 AI 都有一个信用评分，取决于它过去答对了多少、领域是否匹配等。新的知识需要多个 AI 投票认可才能写入。

效果：有这套记忆系统的 AI，准确率是没有记忆的 AI 的两倍。

第二篇回答了一个更根本的问题：有记忆的 AI 真的会随时间越来越好吗？

实验设计很有意思：

有记忆组：3 行提示词 + 记忆系统，每轮可以查之前积累的所有知识
无记忆组：50 到 200 行专家精心编写的提示词，但每轮从零开始

跑 10 轮之后，有记忆的那组，任务难度从 0.8 增长到 3.0（统计上显著增长）；无记忆的那组，完全没有变化。

而两组的当前性能水平其实差不多——3 行提示词加记忆，和 200 行专家提示词打了个平手。

这说明什么？记忆系统给 AI 带来的不是更高的起点，而是持续学习的能力。

人类公司越做越有经验，是因为有文档、有复盘、有知识沉淀。现在 AI 系统也开始出现同样的特征了。

三代总结

用最简单的话说：

Prompt Engineering：优化你怎么跟模型说话
Context Engineering：优化模型能看到什么信息
Harness Engineering：优化模型在什么环境里运转

Harness = 评估机制（让 AI 互相纠错）+ 架构约束（规则机械化执行）+ 记忆治理（让系统越跑越好）

少了任何一块，AI 系统都会在某个地方失控。

参考资料

Anthropic Engineering Blog
OpenAI Blog
(S)AGE Paper
Longitudinal Learning Paper

免责声明：本文基于公开互联网信息整理与原创加工，相关内容版权归原作者所有。部分素材及内容由AI大模型辅助生成，并经过人工审核与校对，但不排除存在偏差或遗漏。鉴于技术与市场变化较快，文中涉及的工具、参数及观点仅供参考，不构成任何投资或决策建议。