从Prompt到Harness:大模型工程化的三次认知革命
从Prompt到Harness:大模型工程化的三次认知革命
2026年的春天,AI开发领域正在经历一场静默但深刻的范式转移。当大多数人还在讨论哪个大模型更聪明时,一线开发者已经发现:决定AI Agent表现好坏的最大变量,往往不是模型本身,而是模型被放在什么样的环境里运行。
环境设计取代模型优化:Harness Engineering的时代来临
2026年2月5日,HashiCorp联合创始人Mitchell Hashimoto在个人博客中正式命名了一种正在被顶尖团队广泛采用的工程实践——Harness Engineering(驾驭工程)。六天后,OpenAI发布官方实验报告《Harness Engineering: Leveraging Codex in an Agent-First World》,标题直接采用了这个术语。随后,软件工程泰斗Martin Fowler在Twitter上为Thoughtworks工程师的深度分析站台。
一个月之内,Harness Engineering从一篇博客文章变成了全球开发者社区的高频词。一个新的共识正在形成:在AI Agent编码领域,环境设计已经取代模型优化,成为决定工程产出质量的核心杠杆。
三次认知升级:从Prompt到Context再到Harness
回顾过去三年,开发者社区对"如何让AI可靠工作"这个问题的理解,经历了三次清晰的认知升级。
2023年:Prompt Engineering的全盛期 这是Prompt Engineering(提示词工程)的黄金时代。写好一条提示词就能让AI交付结果,Few-shot prompting、Chain-of-Thought、角色扮演等技巧成为开发者社区的宠儿。但当AI从简单的chatbot进化为需要处理复杂任务的Agent时,单条指令的局限性暴露无遗。
技术博主Simon Willison后来总结了这个阶段的问题:"prompt engineering的社会推断含义已经偏离了本意。大多数人听到prompt engineering,想到的就是对着ChatGPT打字。"
2025年中:Context Engineering的崛起 2025年6月,OpenAI联合创始人Andrej Karpathy发帖:"+1 for 'context engineering' over 'prompt engineering'......这是一门精微的艺术与科学,用恰到好处的信息填充上下文窗口,以服务于下一步操作。"
Shopify CEO Tobi Lutke紧随其后,发布了一条获得190万浏览量的帖子:"我真的很喜欢context engineering这个词。它更好地描述了核心技能:为任务提供让LLM有可能解决它的全部上下文的艺术。"
Context Engineering的核心转变在于:焦点从"写好一条指令"扩展到了"设计一个动态系统来组装上下文"。RAG(检索增强生成)、对话历史、工具输出、系统指令的编排,都成了工程师需要操心的事。
2026年2月:Harness Engineering的正式命名 但2025年下半年,一线实践者开始发现:光有好的上下文,Agent依然会失控。技术播客Vanishing Gradients的一集节目标题直接点破了这个矛盾:"Why Agent Context Isn't Enough"(为何仅有Agent上下文依然不够)。
节目揭示了一个关键悖论:上下文窗口的扩大,并不等于Agent性能的线性提升。即便模型理论上支持100万Token的上下文,性能衰减在25.6万Token左右便已出现。更严重的是,一个无人监控的Agent陷入无限循环,造成了5万美元的API账单损失。
上下文可以告诉Agent"知道什么",但无法阻止Agent"做不该做的事"。Mitchell Hashimoto为这块缺失的拼图命了名:Harness Engineering。他的定义很简洁:"每当你发现Agent犯了一个错误,你就花时间设计一个解决方案,使Agent永远不再犯同样的错误。"
OpenAI的百万行代码实验:Harness Engineering的实战验证
OpenAI的实验报告记录了工程史上的一个里程碑:5名工程师,五个月时间,零行手写代码,通过Codex Agent协作交付了超过100万行代码的生产级软件产品。
这个实验的设定本身就是Harness Engineering思维的体现:团队明确声明这是一个"刻意设定的极端约束实验"。设定"零人类代码"这条规则的目的,是倒逼团队去构建能让Agent大规模可靠工作的工程基础设施。
效率数据令人震惊:平均每名工程师每日3.5个Pull Request的合并吞吐量。代码审查通过Agent对Agent的循环实现了大规模自动化,人工监督仅保留在高层架构决策环节。
报告作者Ryan Lopopolo写了一句后来被反复引用的话:"我们目前最困难的挑战,集中在设计环境、反馈回路和控制系统上。"
(文章内容已简化,完整版本保存在本地)