EvoSkill 最值得看的,不是它会调技能,而是 Agent 开始学会长技能
Agent 这条线发展到现在,一个问题其实越来越明显了。
大家都在讲技能、工具、工作流、记忆、执行,但很少有人认真回答:这些技能到底从哪来?
现在主流的答案基本只有两个。
一种是人写。靠开发者、研究者或者资深用户手工整理出一份份 SKILL.md、prompt 模板、工具说明和流程约束。这个办法当然有效,但它的问题也很明显,太慢、太贵,而且很依赖少数有经验的人。
另一种是直接去优化 prompt 或代码。像过去一些进化式方法,会不断试错、不断调整低层 artifact,最后找到某种更优配置。问题在于,这类产物往往和特定模型、特定任务、特定环境绑得太死,很难迁移,也很难复用。
EvoSkill 真正有意思的地方,就是它把问题往上提了一层。
它不再问“怎么把 prompt 调到最好”,而是在问:Agent 能不能自己发现,什么东西值得沉淀成技能。
这其实是个很关键的转折。
因为一旦问题从“调参数”变成“长技能”,Agent 的成长方式就不一样了。它不再只是不断把底层提示词磨尖,而是开始有机会形成一种更高层、更可解释、也更能迁移的能力积累。
根据公开资料,EvoSkill 的核心机制并不复杂,但很聪明。它把整个技能发现过程拆成三个角色:一个执行任务,一个分析失败,一个把失败分析具体化为技能候选。换句话说,Agent 先去做,做砸了以后不是简单记一笔,而是有人专门回头看,这次为什么失败,失败模式有没有共性,值不值得提炼成以后都能复用的一条技能。
这个思路最妙的地方在于,它不是从“成功经验”里抽象,而是从“失败轨迹”里倒推。
这非常像真实世界里成熟工程师的成长方式。
很多有价值的经验,从来不是因为某次顺利完成任务才被总结出来,而是因为某次出错、某次走弯路、某次重复踩坑,最后才逼着人把方法固化下来。EvoSkill 做的,其实就是把这个过程系统化,让失败不只是一条日志,而是技能生成的原料。
这比很多“自我进化”叙事都更扎实。
因为它没有假装 Agent 会凭空变强,而是承认:成长本来就应该来自具体问题、具体失败和具体反馈。
更重要的是,EvoSkill 沉淀出来的不是一堆难以复用的底层优化结果,而是结构化的技能文件夹。也就是说,它想保留下来的不是“这个模型在这个 prompt 下偶然跑得更好”,而是“面对这类问题,以后应该这样做”。
这件事的意义非常大。
因为只要技能是结构化的、显式的、可读的,它就天然更适合跨任务复用,也更适合接进今天已经开始普及的 Skills 生态里。你可以把它接进 OpenClaw,也可以接进其他支持技能文件夹的 Agent 框架。它不是某个模型内部的一点隐性偏好,而是一份真正能被搬走、审查、复用、修改的能力资产。
从这个角度看,EvoSkill 最值得看的,不只是实验分数,而是它在回答一个更长期的问题:
当 Agent 越来越复杂时,能力积累到底应该以什么形式存在?
如果答案只是“更长的上下文”“更大的模型”“更多的 prompt 工程”,那系统最终还是会越来越脆弱。因为这些东西太依赖具体环境,不够稳定,也不够可迁移。
但如果答案变成“可以被发现、被命名、被打包、被复用的技能”,整个 Agent 生态就会从一次次临时调参,慢慢走向真正的能力沉淀。
这也是 EvoSkill 和很多旧方法真正拉开差距的地方。
像过去一些进化方法,本质上还是在低层优化 artifact。你当然可以得到性能提升,但这种提升经常很难跨模型、跨任务、跨场景复用。EvoSkill 更像是在做一件更接近基础设施的事,它试图把“经验”本身提炼成一个更高层的可移植对象。
实验里最耐人寻味的,也恰恰不是提升了多少分,而是迁移性这件事。一个在 SealQA 上发现出来的技能,还能零样本迁移到 BrowseComp 继续带来收益。这说明它抓到的不是某个 benchmark 的偶然技巧,而是一类更普遍的行为策略。
这才是真正有价值的技能。
因为所谓技能,如果只能在原场景里工作,那它更像补丁;只有能跨场景继续成立,它才更像能力。
再往前看一步,EvoSkill 这种路线还有一个更重要的启发。
未来 Agent 之间真正的差距,可能不只是底层模型差距,而是谁更快形成自己的技能库、谁更会从失败里长出新技能、谁更能把这些技能沉淀成可以持续复利的资产。
这意味着,Agent 的竞争也许会慢慢从“谁更聪明”转向“谁更会成长”。
这个变化一旦成立,影响就不只是研究层面的。
对于做 Agent 产品的人来说,这会改变产品设计思路。重点不再只是给用户塞更多工具,而是要想办法让系统在长期使用里自己发现高频失败模式,并把这些失败不断收束成更稳定的能力。
对于使用 Agent 的开发者来说,这也会改变大家对 Skills 的理解。Skills 不再只是社区里别人写好的一堆说明文档,而有机会变成系统自己慢慢长出来的一部分。
对于整个 Agent 生态来说,这种变化更重要。因为它在把 Skills 从“人工维护的外部附件”,往“系统演化出的能力层”方向推进。
说得直白一点,Agent 以前更像在学会用工具,EvoSkill 这类工作则在推动它学会长技能。
这两者不是一回事。
前者解决的是执行,后者解决的是成长。
而真正成熟的系统,最后一定既要会做事,也要会进化。
所以如果只把 EvoSkill 看成一篇讲实验结果的论文,其实有点可惜。
它更像是在提醒整个 Agent 领域:下一阶段真正值得争夺的,也许不是谁再把 prompt 调好一点,而是谁先让 Agent 具备持续发现、提炼并积累技能的能力。
如果这条路走通,Agent 世界会开始出现一种很大的变化:能力不再只是被喂进去,而是可以被长出来。