2026-03-30 06:42

从Prompt到Harness：大模型工程化的三次认知革命

从Prompt到Harness：大模型工程化的三次认知革命

2026年的春天，AI开发领域正在经历一场静默但深刻的范式转移。当大多数人还在讨论哪个大模型更聪明时，一线开发者已经发现：决定AI Agent表现好坏的最大变量，往往不是模型本身，而是模型被放在什么样的环境里运行。

环境设计取代模型优化：Harness Engineering的时代来临

2026年2月5日，HashiCorp联合创始人Mitchell Hashimoto在个人博客中正式命名了一种正在被顶尖团队广泛采用的工程实践——Harness Engineering（驾驭工程）。六天后，OpenAI发布官方实验报告《Harness Engineering: Leveraging Codex in an Agent-First World》，标题直接采用了这个术语。随后，软件工程泰斗Martin Fowler在Twitter上为Thoughtworks工程师的深度分析站台。

一个月之内，Harness Engineering从一篇博客文章变成了全球开发者社区的高频词。一个新的共识正在形成：在AI Agent编码领域，环境设计已经取代模型优化，成为决定工程产出质量的核心杠杆。

三次认知升级：从Prompt到Context再到Harness

回顾过去三年，开发者社区对"如何让AI可靠工作"这个问题的理解，经历了三次清晰的认知升级。

2023年：Prompt Engineering的全盛期 这是Prompt Engineering（提示词工程）的黄金时代。写好一条提示词就能让AI交付结果，Few-shot prompting、Chain-of-Thought、角色扮演等技巧成为开发者社区的宠儿。但当AI从简单的chatbot进化为需要处理复杂任务的Agent时，单条指令的局限性暴露无遗。

技术博主Simon Willison后来总结了这个阶段的问题："prompt engineering的社会推断含义已经偏离了本意。大多数人听到prompt engineering，想到的就是对着ChatGPT打字。"

2025年中：Context Engineering的崛起 2025年6月，OpenAI联合创始人Andrej Karpathy发帖："+1 for 'context engineering' over 'prompt engineering'......这是一门精微的艺术与科学，用恰到好处的信息填充上下文窗口，以服务于下一步操作。"

Shopify CEO Tobi Lutke紧随其后，发布了一条获得190万浏览量的帖子："我真的很喜欢context engineering这个词。它更好地描述了核心技能：为任务提供让LLM有可能解决它的全部上下文的艺术。"

Context Engineering的核心转变在于：焦点从"写好一条指令"扩展到了"设计一个动态系统来组装上下文"。RAG（检索增强生成）、对话历史、工具输出、系统指令的编排，都成了工程师需要操心的事。

2026年2月：Harness Engineering的正式命名 但2025年下半年，一线实践者开始发现：光有好的上下文，Agent依然会失控。技术播客Vanishing Gradients的一集节目标题直接点破了这个矛盾："Why Agent Context Isn't Enough"（为何仅有Agent上下文依然不够）。

节目揭示了一个关键悖论：上下文窗口的扩大，并不等于Agent性能的线性提升。即便模型理论上支持100万Token的上下文，性能衰减在25.6万Token左右便已出现。更严重的是，一个无人监控的Agent陷入无限循环，造成了5万美元的API账单损失。

上下文可以告诉Agent"知道什么"，但无法阻止Agent"做不该做的事"。Mitchell Hashimoto为这块缺失的拼图命了名：Harness Engineering。他的定义很简洁："每当你发现Agent犯了一个错误，你就花时间设计一个解决方案，使Agent永远不再犯同样的错误。"

OpenAI的百万行代码实验：Harness Engineering的实战验证

OpenAI的实验报告记录了工程史上的一个里程碑：5名工程师，五个月时间，零行手写代码，通过Codex Agent协作交付了超过100万行代码的生产级软件产品。

这个实验的设定本身就是Harness Engineering思维的体现：团队明确声明这是一个"刻意设定的极端约束实验"。设定"零人类代码"这条规则的目的，是倒逼团队去构建能让Agent大规模可靠工作的工程基础设施。

效率数据令人震惊：平均每名工程师每日3.5个Pull Request的合并吞吐量。代码审查通过Agent对Agent的循环实现了大规模自动化，人工监督仅保留在高层架构决策环节。

报告作者Ryan Lopopolo写了一句后来被反复引用的话："我们目前最困难的挑战，集中在设计环境、反馈回路和控制系统上。"

（文章内容已简化，完整版本保存在本地）