Harness Engineering:驾驭AI Agent的六大核心组件
Agent的5个落地卡点
Agent确实越来越强。但一个问题也越来越明显:你不一定能真正掌控你搭建的系统。
Harness要解决的就是Agent五个落地卡点:
| 卡点 | 描述 |
|---|---|
| 无限循环 | Agent在工具调用里转圈出不来 |
| 上下文爆炸 | 对话越长,信息越多,质量越差 |
| 权限失控 | Agent自己决定删文件、调API,你不知道 |
| 质量不可控 | 模型不会评价自己的工作,自信地交出烂东西 |
| 成本不透明 | 一个任务跑完才知道花了多少钱 |
什么是Harness
公式很简单:Agent = Model + Harness
底层是纯推理的大模型。Harness是包裹模型运行的一切外围——运行时环境、工具系统、上下文管理、权限控制、状态持久化、反馈循环。
Harness把大模型的大脑变成了Agent的身体。
DeepMind的Agent团队做过一个很有名的实验:模型固定不动,只换Harness,性能就能产生巨大差异。Anthropic也分享了同一个模型只换壳,编程成功率42%变78%,Terminal Bench排名差28位。
Agent工程思维的三次跃迁
2023年:Prompt Engineering
怎么写好一条指令。CoT是有用的,"Let's think step by step" 可以让大模型更好的推理。但本质都在打磨单次输入。
2024-2025年:Context Engineering
你给模型什么,就是你从它身上拿到什么。RAG、知识库、上下文调教,都是这个阶段。
2026年:Harness Engineering
只做Context Engineering目光高度不够了。Agent能力这么强,不只让它回答问题,还要让它自动采集、自动审核、自动完成任务。核心两个字:可控。
Harness六大核心组件
1. Agentic Loop —— 心脏
接受输入,通过工具执行、反复循环,确保问题解决了再返回结果。
2. Tool System —— 手脚
通过工具调用扩展大模型的行动范围。
3. Memory & Context Management —— 记忆
Context压缩、长任务连贯性、Compaction。
4. Guardrails —— 缰绳
Allow、Deny、Ask。人得控制权限。
5. Hooks —— 守卫
传代码到GitHub之前的安全检查。
6. Session —— 连续性
控制运行时,让Agent的工作不因中断而丢失。
为什么Harness不是一阵风?
过去30年,工程师都在做一件事:驾驭复杂性。用两个字概括,就是抽象。
- 1994年:《设计模式》—— 驾驭对象
- 2002年:《企业应用架构模式》—— 驾驭架构
- 2010年:微服务 —— 驾驭分布式通信
- 2017年:DDIA —— 驾驭数据
- 2026年:Harness —— 驾驭不确定性
这是30年来的本质区别。以前的对象、架构、微服务、数据,输入确定,输出确定。Agent不是。
Harness就是驾驭这个不确定性系统的缰绳。 只要Agent是概率系统,就需要有人设计缰绳。这件事是结构性的,不是一阵风。
原文来源:探索AGI(微信公众号)