ChipHub
AI产品策略 2026年3月16日

AI 编程真正危险的地方,不是写不出来,而是八个月后没人敢接着改

一条关于阿里测试 18 个 AI agents 的帖子,把 AI Coding 的真正短板说透了:让模型把代码“先写出来”已经不难,难的是在长周期维护里不持续引入回归和技术债。真正的问题不是首轮生成,而是后续谁来接住。

来源参考: X

AI Coding 这波热潮,最容易把人带偏的地方,是大家都在看“它这次写出来没有”,却很少盯着“八个月后这坨东西还有没有人敢动”。能生成,不等于能维护。

Priyanka Vergadia 这条 X 帖子之所以传播得快,不只是因为语气狠,而是它一下子把很多团队心里那个隐约的不安说穿了:AI 也许不是来抢程序员工作的,它更像是在批量制造未来要靠人类收拾的遗留代码。

“Passing a coding test once is easy. Maintaining that code for 8 months without it exploding? Apparently, it’s nearly impossible for AI.”

帖子的核心信息并不复杂。阿里据称测试了 18 个 AI agents,在 100 个真实代码库233 天维护周期 里观察它们的长期表现。不是看一次性 patch 能不能过,而是看代码在持续演化后会不会开始崩、会不会把原本能跑的东西越修越坏。

配图里最刺眼的一句其实不是哪家模型赢了,而是这句:75% 的模型会在维护过程中破坏原本正常工作的代码。 这意味着很多模型擅长的是“把答案先写出来”,但不擅长“让系统继续活下去”。

SWE-CI benchmark 图表

如果这个结论成立,那它打掉的就不只是几个 benchmark 神话,而是整个 AI Coding 叙事里最偷懒的一层:过去太多人拿 HumanEval 这类快照测试来证明模型“已经会写代码了”,但现实工程从来不是一次性答题。真正的工程环境更像帖子里提到的这个方向:功能上线之后,需求继续变,依赖继续动,边界条件继续冒出来,系统要在一次次修改中活下来。

换句话说,很多 agent 今天交付的不是软件,而是短期可运行、长期难维护的脆弱产物。当这些代码还在 demo 阶段时,问题不明显;一旦进入真实团队、真实仓库、真实协作链条,技术债就不会消失,只会转移。省下来的那点生成时间,最后往往要靠更高的 review 成本、排障成本和重构成本补回去。

这也是为什么我越来越觉得,AI Coding 的真正分水岭不在“谁 first draft 更快”,而在“谁能在长周期里控制回归、控制债务、控制复杂度”。帖子里提到的 SWE-CI 这类思路更接近真实问题:不是问“现在对不对”,而是问“过了很多轮修改之后,它还稳不稳”。

如果以后行业真的开始从快照 benchmark 转向维护 benchmark,那很多今天看起来很能打的模型和 agent 产品,估计都得重新排座次。因为写一个能过测试的 patch,不算太难;写一段八个月后团队还敢继续改的代码,才算真本事。

所以这条帖子最值钱的地方,不是情绪,而是它把评价标准往前推了一步。AI 写代码这件事,真正贵的部分从来不是生成那一下,而是后面那一长串维护责任。模型可以帮你把第一棒跑得更快,但接力赛最后摔不摔,还是看代码本身能不能活到终点。

文中提到的原帖在这里:X 原帖。如果只看速度,AI Coding 确实已经很强;但如果把时间轴拉长,维护能力才是下一阶段真正见高下的地方。

参考链接