NVIDIA 把“盲编程”推到台前:Agent 连跑 7 天,开始越过 GPU 专家
NVIDIA 最新的 AVO 研究,不只是把代码生成做得更强,而是把 Agent 直接抬成了“进化算子”。真正值得警惕的不是它赢了多少百分点,而是它开始能在几乎没人盯着的情况下,持续做出硬件级优化判断。
来源参考: X / NVIDIA Research
这条消息真正吓人的地方,不是 NVIDIA 又发了一篇新论文,而是它把一个很多人心里已经隐约感觉到、但还没完全说出口的方向,直接摆上了台面:软件工程里最稀缺的,可能不再是“会不会写代码”,而是人类还能不能继续当优化闭环里的瓶颈。

NVIDIA 这次提交到 arXiv 的论文叫 AVO: Agentic Variation Operators for Autonomous Evolutionary Search。名字有点学术,但意思很直白:以前大模型在进化搜索里,通常只是“吐一个候选答案”的部件;现在他们想做的,是把 Agent 直接变成那个会自己查资料、改代码、跑测试、看 profiler、再继续修正的“进化算子”。这不是更高级一点的 autocomplete,而是把整个迭代回路交给机器自己跑。
论文聚焦的是一个最不该轻易被突破的地方:GPU 上的 attention kernel 优化。这个方向早就被人卷到接近极限了,像 cuDNN 和 FlashAttention 这种实现,背后都是极深的硬件理解、长期的人肉调优和大量试错。按常识看,这本来应该是“最后一批不容易被自动化吃掉”的工作之一。
结果 AVO 在 NVIDIA Blackwell B200 上,围绕 multi-head attention 连续自主跑了 7 天,没有人工介入,探索了 500 多条优化路径,产出了 40 个有效版本。最终在 BF16 下做到 1668 TFLOPS,相对 cuDNN 最多快 3.5%,相对 FlashAttention-4 最多快 10.5%。如果这组结果站得住,它传递的信号就不是“Agent 会写代码”这么简单,而是 Agent 已经开始碰那些原本默认要靠少数高手经验、直觉和耐心才能挤出来的性能空间。
更关键的是,这套东西不是靠碰运气撞出来的。研究里提到,Agent 做的改动已经涉及寄存器分配、流水线调度、负载分布这些很底层的决策,而且还具备迁移能力:把在 MHA 上找到的优化迁到 GQA,上手只花了 30 分钟,性能依然能继续领先。换句话说,它不是背题,而是在形成某种可以反复利用的硬件级工作方法。
这也是为什么徐冰在 X 上把它叫得这么重,说这可能是软件领域第一次真正展示出“超人级智能”的味道。这个说法当然带情绪,也带传播张力,但它不是纯标题党。因为传统“LLM 写代码”的短板,恰恰就在于它通常只负责生成,不负责长期闭环;它会给你答案,但不会自己盯着结果一轮一轮把事情做完。AVO 真正跨过去的一步,是让 Agent 不再只是流水线里的一个节点,而是开始接管整个优化过程。
我觉得这件事最值得重估的,不是 GPU kernel 开发明天会不会立刻失业,而是软件工程的价值分层会被重新切开。以后更贵的,可能不是“亲手把代码敲出来”,而是定义目标、约束搜索空间、设计验证机制、判断什么时候该相信 Agent、什么时候必须人为兜底。很多过去以“经验护城河”存在的岗位,不会一夜消失,但会突然发现自己的护城河变成了 Agent 最爱拿来训练和压缩的那部分东西。
当然,风险和不确定性也很现实。第一,这类结果目前仍然高度依赖特定 benchmark、特定硬件、特定工具链,离“普遍适用”还有距离。第二,论文展示的是长期自主优化的能力,但工程世界里真正棘手的地方,往往是模糊需求、跨团队协作、历史包袱和线上事故,而不是单点性能竞赛。第三,Agent 一旦进入这种高自主状态,验证和审计会变得更重要:它不是会不会犯错的问题,而是它可能在你没看见的地方,持续做出你已经来不及逐步审查的决定。
但即便把这些保守因素都算进去,这篇研究还是说明了一件很硬的事:Blind coding 不再只是一个夸张口号,而是在某些高价值、高反馈密度的技术场景里,开始变成一种能跑出结果的方法论。人类工程师当然还没退场,只是舞台中央的位置,已经没有以前那么稳了。
参考链接: