Agent 与接口 2026年3月26日

NVIDIA 把“盲编程”推到台前：Agent 连跑 7 天，开始越过 GPU 专家

NVIDIA 最新的 AVO 研究，不只是把代码生成做得更强，而是把 Agent 直接抬成了“进化算子”。真正值得警惕的不是它赢了多少百分点，而是它开始能在几乎没人盯着的情况下，持续做出硬件级优化判断。

#AI #Agent #NVIDIA #GPU #Software Engineering

这条消息真正吓人的地方，不是 NVIDIA 又发了一篇新论文，而是它把一个很多人心里已经隐约感觉到、但还没完全说出口的方向，直接摆上了台面：软件工程里最稀缺的，可能不再是“会不会写代码”，而是人类还能不能继续当优化闭环里的瓶颈。

AVO 相关配图：NVIDIA Agentic Variation Operators 研究引发热议

NVIDIA 这次提交到 arXiv 的论文叫 AVO: Agentic Variation Operators for Autonomous Evolutionary Search。名字有点学术，但意思很直白：以前大模型在进化搜索里，通常只是“吐一个候选答案”的部件；现在他们想做的，是把 Agent 直接变成那个会自己查资料、改代码、跑测试、看 profiler、再继续修正的“进化算子”。这不是更高级一点的 autocomplete，而是把整个迭代回路交给机器自己跑。

论文聚焦的是一个最不该轻易被突破的地方：GPU 上的 attention kernel 优化。这个方向早就被人卷到接近极限了，像 cuDNN 和 FlashAttention 这种实现，背后都是极深的硬件理解、长期的人肉调优和大量试错。按常识看，这本来应该是“最后一批不容易被自动化吃掉”的工作之一。

结果 AVO 在 NVIDIA Blackwell B200 上，围绕 multi-head attention 连续自主跑了 7 天，没有人工介入，探索了 500 多条优化路径，产出了 40 个有效版本。最终在 BF16 下做到 1668 TFLOPS，相对 cuDNN 最多快 3.5%，相对 FlashAttention-4 最多快 10.5%。如果这组结果站得住，它传递的信号就不是“Agent 会写代码”这么简单，而是 Agent 已经开始碰那些原本默认要靠少数高手经验、直觉和耐心才能挤出来的性能空间。

更关键的是，这套东西不是靠碰运气撞出来的。研究里提到，Agent 做的改动已经涉及寄存器分配、流水线调度、负载分布这些很底层的决策，而且还具备迁移能力：把在 MHA 上找到的优化迁到 GQA，上手只花了 30 分钟，性能依然能继续领先。换句话说，它不是背题，而是在形成某种可以反复利用的硬件级工作方法。

这也是为什么徐冰在 X 上把它叫得这么重，说这可能是软件领域第一次真正展示出“超人级智能”的味道。这个说法当然带情绪，也带传播张力，但它不是纯标题党。因为传统“LLM 写代码”的短板，恰恰就在于它通常只负责生成，不负责长期闭环；它会给你答案，但不会自己盯着结果一轮一轮把事情做完。AVO 真正跨过去的一步，是让 Agent 不再只是流水线里的一个节点，而是开始接管整个优化过程。

我觉得这件事最值得重估的，不是 GPU kernel 开发明天会不会立刻失业，而是软件工程的价值分层会被重新切开。以后更贵的，可能不是“亲手把代码敲出来”，而是定义目标、约束搜索空间、设计验证机制、判断什么时候该相信 Agent、什么时候必须人为兜底。很多过去以“经验护城河”存在的岗位，不会一夜消失，但会突然发现自己的护城河变成了 Agent 最爱拿来训练和压缩的那部分东西。

当然，风险和不确定性也很现实。第一，这类结果目前仍然高度依赖特定 benchmark、特定硬件、特定工具链，离“普遍适用”还有距离。第二，论文展示的是长期自主优化的能力，但工程世界里真正棘手的地方，往往是模糊需求、跨团队协作、历史包袱和线上事故，而不是单点性能竞赛。第三，Agent 一旦进入这种高自主状态，验证和审计会变得更重要：它不是会不会犯错的问题，而是它可能在你没看见的地方，持续做出你已经来不及逐步审查的决定。

但即便把这些保守因素都算进去，这篇研究还是说明了一件很硬的事：Blind coding 不再只是一个夸张口号，而是在某些高价值、高反馈密度的技术场景里，开始变成一种能跑出结果的方法论。人类工程师当然还没退场，只是舞台中央的位置，已经没有以前那么稳了。

参考链接：