2026-04-14 08:51

Harness Engineering:驾驭AI Agent的六大核心组件

Agent的5个落地卡点

Agent确实越来越强。但一个问题也越来越明显:你不一定能真正掌控你搭建的系统。

Harness要解决的就是Agent五个落地卡点:

卡点 描述
无限循环 Agent在工具调用里转圈出不来
上下文爆炸 对话越长,信息越多,质量越差
权限失控 Agent自己决定删文件、调API,你不知道
质量不可控 模型不会评价自己的工作,自信地交出烂东西
成本不透明 一个任务跑完才知道花了多少钱

什么是Harness

公式很简单:Agent = Model + Harness

底层是纯推理的大模型。Harness是包裹模型运行的一切外围——运行时环境、工具系统、上下文管理、权限控制、状态持久化、反馈循环。

Harness把大模型的大脑变成了Agent的身体。

DeepMind的Agent团队做过一个很有名的实验:模型固定不动,只换Harness,性能就能产生巨大差异。Anthropic也分享了同一个模型只换壳,编程成功率42%变78%,Terminal Bench排名差28位。

Agent工程思维的三次跃迁

2023年:Prompt Engineering

怎么写好一条指令。CoT是有用的,"Let's think step by step" 可以让大模型更好的推理。但本质都在打磨单次输入。

2024-2025年:Context Engineering

你给模型什么,就是你从它身上拿到什么。RAG、知识库、上下文调教,都是这个阶段。

2026年:Harness Engineering

只做Context Engineering目光高度不够了。Agent能力这么强,不只让它回答问题,还要让它自动采集、自动审核、自动完成任务。核心两个字:可控。

Harness六大核心组件

1. Agentic Loop —— 心脏

接受输入,通过工具执行、反复循环,确保问题解决了再返回结果。

2. Tool System —— 手脚

通过工具调用扩展大模型的行动范围。

3. Memory & Context Management —— 记忆

Context压缩、长任务连贯性、Compaction。

4. Guardrails —— 缰绳

Allow、Deny、Ask。人得控制权限。

5. Hooks —— 守卫

传代码到GitHub之前的安全检查。

6. Session —— 连续性

控制运行时,让Agent的工作不因中断而丢失。

为什么Harness不是一阵风?

过去30年,工程师都在做一件事:驾驭复杂性。用两个字概括,就是抽象

  • 1994年:《设计模式》—— 驾驭对象
  • 2002年:《企业应用架构模式》—— 驾驭架构
  • 2010年:微服务 —— 驾驭分布式通信
  • 2017年:DDIA —— 驾驭数据
  • 2026年:Harness —— 驾驭不确定性

这是30年来的本质区别。以前的对象、架构、微服务、数据,输入确定,输出确定。Agent不是。

Harness就是驾驭这个不确定性系统的缰绳。 只要Agent是概率系统,就需要有人设计缰绳。这件事是结构性的,不是一阵风。


原文来源:探索AGI(微信公众号)