AI Evaluation

CEO-Bench 真正说明的不是 AI 能不能当 CEO,而是长周期决策有多难

CEO-Bench 这份实验最有价值的地方,不是拿 14 个顶级模型去当“CEO”这个标题党的设定,而是把长周期经营这件事强行拉到实验室里:500 天、100 万美元起始资金、同一家公司、同一套订阅软件业务。结果并不浪漫,甚至有点残酷。大多数模型不是不会做决策,而是撑不住这么长的回合。

为什么 500 天 比 5 分钟更重要

很多 AI 能在单次任务上表现不错:写邮件、改文案、做分析、生成代码。但经营一家公司不是单点任务,它需要定价、招聘、产品、现金流、竞争和反馈校准在很长时间里保持一致。500 天意味着模型不仅要“会想”,还要“记得自己上周为什么这么想”。

这也是 CEO-Bench 最有启发的地方:它不是在问 AI 能不能输出一句像样的话,而是在问它能不能在足够长的时间里不把自己带沟里。

真正的差距在记忆、规划和反思

报告里最刺眼的对比之一,是少数模型在最好轮次里确实能赚钱,但平均表现和稳定性却不够强。相比之下,一个不调用大模型的简单规则启发式方法,反而能稳定盈利。这个结果并不说明“智能没用”,而是说明在长时程场景里,稳定性和可控性往往比上限更重要。

  • 单次聪明不等于长期可靠。
  • 记忆不连续,战略就容易漂移。
  • 没有反思机制,错误会在长周期里累积。
  • 规则系统上限低,但胜在稳定。

为什么这件事和 Agent 相关

今天很多人把 Agent 想成“能自己跑很久的东西”。但 CEO-Bench 的提醒很直接:一旦任务跨越数百回合,最难的就不再是某一步推理,而是持续校准。一个 Agent 如果没有可靠记忆、复盘和边界,很容易在看似进展不错时悄悄把方向带偏。

这意味着现实里的 AI 系统,不应该盲目追求“全自动经营”,而应该把 Agent 放在适合它的边界内:单点决策、局部优化、可回滚的流程、人工可介入的关键节点。

对普通团队的启示

  1. 不要把“能跑一个任务”误判为“能长期经营”。
  2. 把 AI 放进短闭环、明确目标、可验证的流程里。
  3. 长周期任务要有记忆、复盘和人工检查点。
  4. 关键业务尽量保留规则系统和回退机制。
  5. 把 AI 看成增益层,而不是默认 CEO。

CEO-Bench 不是在说 AI 没用,而是在把它的边界讲清楚。最好的用法,往往不是让它独自管理一家公司,而是把它放在可靠流程上做局部增强。