Kimi K2.6,把开源 coding agent 又往前推了一截
Moonshot 把 Kimi K2.6 的重点押在 coding、长程执行和 agent swarm 上,这不只是一次模型迭代,更像是在抢“开源代理工作流默认底座”的位置。它真正有意思的地方,不是单项分数多高,而是把长时间、多工具、多子任务协同这件事讲得越来越像工程能力。
共 10 篇
Moonshot 把 Kimi K2.6 的重点押在 coding、长程执行和 agent swarm 上,这不只是一次模型迭代,更像是在抢“开源代理工作流默认底座”的位置。它真正有意思的地方,不是单项分数多高,而是把长时间、多工具、多子任务协同这件事讲得越来越像工程能力。
一个爆火的 GitHub 项目,想解决的核心问题是 agent 开发里的失控感。它把提需求、做设计、拆计划、TDD、评审和收尾串成默认流程,让 AI 编程更像工程,而不只是补全。
Nick Baumann 讲了一个很实用的经验,给 Codex 最好的工具往往不是直接塞原始系统访问,而是做一层 bespoke CLI,把噪音压掉,把输入输出变成稳定命令。重点不只是“能接入”,而是让 agent 真正能反复、可靠、低摩擦地调用。
Claude Managed Agents 进入公测,Anthropic 不再只提供模型和 API,而是把 agent harness、运行环境和生产基础设施一起打包。真正的变化不是又多了一个新功能,而是大模型厂商开始吞掉原本属于 agent 框架和平台层的地盘。
Google 发布 Gemma 4,把“开源模型竞争”从单纯拼参数,往设备适配、代理工作流和商业可用许可上拉了一层。真正值得看的是,它开始认真争夺本地 AI 和开发者生态的入口。
NVIDIA 最新的 AVO 研究,不只是把代码生成做得更强,而是把 Agent 直接抬成了“进化算子”。真正值得警惕的不是它赢了多少百分点,而是它开始能在几乎没人盯着的情况下,持续做出硬件级优化判断。
SkyPilot 团队把 Claude Code 接到 Karpathy 的 autoresearch 项目上,再给它 16 张 GPU 和一个 Kubernetes 集群。结果不只是实验跑得更快,而是 agent 的研究方法本身变了:从串行试错,变成并行搜索、分层验证,甚至学会了按 H100 和 H200 的差异来分配实验。
Anthropic 这篇关于 Claude Code Skills 的总结,最有价值的地方不是技巧清单本身,而是把 Skill 从“一个提示词文件”重新定义成了组织生产力的封装单位。真正拉开差距的,不是谁会写几段 markdown,而是谁能把知识、脚本、验证、数据接口和长期维护一起做成可复用资产。
阿里成立 ATH 事业群后,钉钉团队随即发布企业级 AI 原生工作平台“悟空”。这件事最值得看的,不是发布会上的热闹口号,而是阿里开始把组织、平台、权限和 Skill 生态一起打包,去抢企业级 Agent 的操作系统位置。
过去几个月,MCP 从“万物皆可协议化”的明星,迅速变成不少人口中的历史包袱。但真正过时的不是 MCP,而是把个人效率工具和团队级 agent 基础设施混为一谈的判断方式。