2026-04-22 19:49

AI 明明让程序员提效了，为什么大家反而加班更狠了？问题可能不在工具，而在老板量生产力的尺子歪了

AI 编程工具这两年最吊诡的一幕，不是它没提效，而是它明明提效了，很多程序员却并没有因此更轻松。

按理说，代码写得更快、文档补得更快、测试生成更快，正常结论应该是节奏变松一点，或者同样的人能做更多更有价值的事。

但现实恰恰相反。很多一线开发者感受到的不是下班更早，而是交付更赶、对标更狠、指标更怪，甚至连“你到底用了多少 AI”“你烧了多少 token”“你一天产出了多少行代码”这种东西，都开始若有若无地进入评价体系。

这说明问题可能根本不在 AI 本身，而在组织开始拿一把本来就不太准的尺子，去量一个已经被 AI 改写过的工作世界。

AI 提效是真的，但“整体更高效”经常是错觉

InfoQ 这篇采访里有个很关键的点，就是很多企业和一线开发者都同时承认了一件事：

AI 确实让编码这件事更快了。

腾讯说九成员工用了编程助手，编码时间缩短 40%，整体提升 20%；快手披露不同阶段团队的提效区间，深度进入交付链路后，某些标杆团队需求交付周期下降 58%；金融和银行软件场景里，测试用例、文档补全这些局部环节提速也已经很明显。

这些都不是幻觉。

但问题在于，编码只是软件研发里的一段，不是全部。

需求对齐、评审、联调、测试、发布、回滚、线上问题处理、跨团队沟通，这些东西并不会因为 AI 会写代码就自动变快。结果就是，局部环节提速了，但整体节奏未必真跟着顺下来。

于是最常见的结果反而是：

老板看到“你这段明明快了”，就把交付预期往上提；而那些没被同步优化的环节，则继续卡在那里；最后被压缩掉的那部分时间，就重新转嫁给了人自己去补。

这就是很多开发者体感越来越累的根源。

真正危险的，不是 AI 提效，而是把局部提效误读成“人可以少一点”

我觉得这篇最扎心的一点，是它把一个大家都隐约感觉到、但很少被摊开讲的逻辑说透了：

一旦某些活明显变快了，组织很容易往一个更残酷的方向滑。

也就是：既然 AI 已经让这部分工作更便宜、更快、更容易量化，那是不是人可以少一点？

这种逻辑在小团队、小应用、短生命周期项目里尤其容易成立。因为这些场景本来协作链条就短，系统复杂度也没那么高，技术债和长期维护成本还没来得及爆发，老板最先看到的自然就是“一个人现在能顶过去一小队人”。

问题是，这种经验一旦被神化，就很容易错误外推到所有研发团队。

而大型复杂系统根本不是这么回事。银行核心系统、工业软件、大型企业软件、历史包袱重的复杂业务平台，真正难的从来不是把代码敲出来，而是让系统长期可维护、可演进、可背责。

AI 可以让一些单点工作更快，但不等于它已经能替代那些沉在架构、经验、质量责任里的复杂劳动。

把“局部提效”直接翻译成“人可以少”，本质上是一种非常危险的误判。

旧时代就不太靠谱的指标，到了 AI 时代只会更歪

如果说组织对 AI 的使用开始走偏，最典型的信号是什么？

我觉得就是那些本来就很粗暴的指标，在 AI 时代又被重新捡起来，而且还变本加厉。

比如代码行数。

这玩意儿本来就不是什么靠谱指标，软件行业这么多年几乎都知道它噪音极大。高价值改动不一定行数多，行数多也不代表产出真有价值。

可 AI 一进来，这种指标反而更容易回潮。原因很简单，它最容易量化，最容易排名，也最容易制造一种“看起来大家都能被统一衡量”的幻觉。

但问题也更严重了，因为 AI 本来就容易让代码写得更膨胀、更冗长、更像是“能跑就行”的大块输出。

所以你如果继续拿代码行数、PR 数量、token 消耗这些东西去量人，结果就很容易跑偏：

比的不是谁更有工程价值，而是谁更会刷显性产出
看见的不是更好的系统，而是更容易被数字化展示的工作痕迹
放大的不是优秀工程师的判断力，而是组织的短视冲动

说得更直接点，AI 时代最怕的不是没有指标，而是旧尺子还在，刻度已经变了。

真正该量的，应该是交付质量、协同质量和认知负担

InfoQ 这篇里我特别认同的一点，是 DORA、SPACE 这类老框架并没有过时，真正要变的是你怎么解释它们。

到了 AI 时代，生产力不该只是“写得更快”，而应该看更完整的东西：

需求交付周期有没有在不牺牲质量的前提下缩短
上线后的故障率有没有上升
恢复时间有没有变短
开发者的认知负担有没有下降
团队协作是不是更顺，而不是更乱
AI 生成内容被采纳和被驳回的比例到底怎样
代码进生产后，维护税和技术债有没有被提前透支

也就是说，AI 时代的生产力，不该只量产出速度，还得量代价结构。

如果你只是更快地产出了一堆以后更难维护的东西，那不是提效，那只是把账往后挪。

AI 时代的研发组织，正在从“衡量人”变成“衡量人和 Agent 的组合”

这也是一个特别大的变化。

过去我们量的是人。一个工程师一天写了多少、交了什么、上线什么。

现在越来越真实的情况是，最小生产单元已经不是“人”，而是“人 + AI + 工具链 + 上下文”。

这意味着，单独去看某个人到底敲了多少代码，其实已经越来越失真。

更合理的做法，应该是看这个组合单位创造了多少有效交付，又消耗了多少真实成本。

这里的成本不只是工资，还包括 token、算力、上下文成本、校验成本、返工成本和风险成本。

说白了，AI 让一些环节变快之后，组织真正该学会的，不是怎么催人更快，而是怎么重新给“有效生产力”定价。

一个更直接的判断

AI 提效没有错，错的是很多组织在看到提效之后，第一反应不是重构流程、释放人力做更有价值的事，而是直接把那部分速度差拿去压指标、压周期、压人数。

这就是为什么我们今天会看到一种很怪的局面：

工具更强了，开发者却不一定更轻松；代码写得更快了，整体交付未必更健康；指标更多了，组织却未必更懂生产力。

如果这把尺子不改，AI 时代的软件工程很可能会变成这样：

局部越来越快，整体越来越累；表面越来越高效，系统越来越脆；数字越来越漂亮，人却越来越像被数字驱赶。

真正成熟的组织，应该把 AI 省出来的人效拿去承接更多价值、更复杂项目、更高质量交付，而不是简单换算成更狠的对标和更紧的考核。

因为人真正值钱的地方，往往恰恰在那些最不容易被 token、代码行数和排行榜算出来的地方。

顺手说一句，如果后面真要把 AI 编程、日志、评估指标、任务编排和交付系统一起跑起来，底层环境也得稳住。像雨云这种偏实干型的云服务，拿来挂对象存储、自动化任务、日志链路和轻量工作流，其实挺合适。很多团队以为自己缺的是更强的 AI，实际上缺的是一套不把人逼进错误指标里的工程环境。