2026-04-19 21:58

EvoSkill 最值得看的，不是它会调技能，而是 Agent 开始学会长技能

Agent 这条线发展到现在，一个问题其实越来越明显了。

大家都在讲技能、工具、工作流、记忆、执行，但很少有人认真回答：这些技能到底从哪来？

现在主流的答案基本只有两个。

一种是人写。靠开发者、研究者或者资深用户手工整理出一份份 SKILL.md、prompt 模板、工具说明和流程约束。这个办法当然有效，但它的问题也很明显，太慢、太贵，而且很依赖少数有经验的人。

另一种是直接去优化 prompt 或代码。像过去一些进化式方法，会不断试错、不断调整低层 artifact，最后找到某种更优配置。问题在于，这类产物往往和特定模型、特定任务、特定环境绑得太死，很难迁移，也很难复用。

EvoSkill 真正有意思的地方，就是它把问题往上提了一层。

它不再问“怎么把 prompt 调到最好”，而是在问：Agent 能不能自己发现，什么东西值得沉淀成技能。

这其实是个很关键的转折。

因为一旦问题从“调参数”变成“长技能”，Agent 的成长方式就不一样了。它不再只是不断把底层提示词磨尖，而是开始有机会形成一种更高层、更可解释、也更能迁移的能力积累。

根据公开资料，EvoSkill 的核心机制并不复杂，但很聪明。它把整个技能发现过程拆成三个角色：一个执行任务，一个分析失败，一个把失败分析具体化为技能候选。换句话说，Agent 先去做，做砸了以后不是简单记一笔，而是有人专门回头看，这次为什么失败，失败模式有没有共性，值不值得提炼成以后都能复用的一条技能。

这个思路最妙的地方在于，它不是从“成功经验”里抽象，而是从“失败轨迹”里倒推。

这非常像真实世界里成熟工程师的成长方式。

很多有价值的经验，从来不是因为某次顺利完成任务才被总结出来，而是因为某次出错、某次走弯路、某次重复踩坑，最后才逼着人把方法固化下来。EvoSkill 做的，其实就是把这个过程系统化，让失败不只是一条日志，而是技能生成的原料。

这比很多“自我进化”叙事都更扎实。

因为它没有假装 Agent 会凭空变强，而是承认：成长本来就应该来自具体问题、具体失败和具体反馈。

更重要的是，EvoSkill 沉淀出来的不是一堆难以复用的底层优化结果，而是结构化的技能文件夹。也就是说，它想保留下来的不是“这个模型在这个 prompt 下偶然跑得更好”，而是“面对这类问题，以后应该这样做”。

这件事的意义非常大。

因为只要技能是结构化的、显式的、可读的，它就天然更适合跨任务复用，也更适合接进今天已经开始普及的 Skills 生态里。你可以把它接进 OpenClaw，也可以接进其他支持技能文件夹的 Agent 框架。它不是某个模型内部的一点隐性偏好，而是一份真正能被搬走、审查、复用、修改的能力资产。

从这个角度看，EvoSkill 最值得看的，不只是实验分数，而是它在回答一个更长期的问题：

当 Agent 越来越复杂时，能力积累到底应该以什么形式存在？

如果答案只是“更长的上下文”“更大的模型”“更多的 prompt 工程”，那系统最终还是会越来越脆弱。因为这些东西太依赖具体环境，不够稳定，也不够可迁移。

但如果答案变成“可以被发现、被命名、被打包、被复用的技能”，整个 Agent 生态就会从一次次临时调参，慢慢走向真正的能力沉淀。

这也是 EvoSkill 和很多旧方法真正拉开差距的地方。

像过去一些进化方法，本质上还是在低层优化 artifact。你当然可以得到性能提升，但这种提升经常很难跨模型、跨任务、跨场景复用。EvoSkill 更像是在做一件更接近基础设施的事，它试图把“经验”本身提炼成一个更高层的可移植对象。

实验里最耐人寻味的，也恰恰不是提升了多少分，而是迁移性这件事。一个在 SealQA 上发现出来的技能，还能零样本迁移到 BrowseComp 继续带来收益。这说明它抓到的不是某个 benchmark 的偶然技巧，而是一类更普遍的行为策略。

这才是真正有价值的技能。

因为所谓技能，如果只能在原场景里工作，那它更像补丁；只有能跨场景继续成立，它才更像能力。

再往前看一步，EvoSkill 这种路线还有一个更重要的启发。

未来 Agent 之间真正的差距，可能不只是底层模型差距，而是谁更快形成自己的技能库、谁更会从失败里长出新技能、谁更能把这些技能沉淀成可以持续复利的资产。

这意味着，Agent 的竞争也许会慢慢从“谁更聪明”转向“谁更会成长”。

这个变化一旦成立，影响就不只是研究层面的。

对于做 Agent 产品的人来说，这会改变产品设计思路。重点不再只是给用户塞更多工具，而是要想办法让系统在长期使用里自己发现高频失败模式，并把这些失败不断收束成更稳定的能力。

对于使用 Agent 的开发者来说，这也会改变大家对 Skills 的理解。Skills 不再只是社区里别人写好的一堆说明文档，而有机会变成系统自己慢慢长出来的一部分。

对于整个 Agent 生态来说，这种变化更重要。因为它在把 Skills 从“人工维护的外部附件”，往“系统演化出的能力层”方向推进。

说得直白一点，Agent 以前更像在学会用工具，EvoSkill 这类工作则在推动它学会长技能。

这两者不是一回事。

前者解决的是执行，后者解决的是成长。

而真正成熟的系统，最后一定既要会做事，也要会进化。

所以如果只把 EvoSkill 看成一篇讲实验结果的论文，其实有点可惜。

它更像是在提醒整个 Agent 领域：下一阶段真正值得争夺的，也许不是谁再把 prompt 调好一点，而是谁先让 Agent 具备持续发现、提炼并积累技能的能力。

如果这条路走通，Agent 世界会开始出现一种很大的变化：能力不再只是被喂进去，而是可以被长出来。