Kimi K2.6,把开源 coding agent 又往前推了一截
Moonshot 把 Kimi K2.6 的重点押在 coding、长程执行和 agent swarm 上,这不只是一次模型迭代,更像是在抢“开源代理工作流默认底座”的位置。它真正有意思的地方,不是单项分数多高,而是把长时间、多工具、多子任务协同这件事讲得越来越像工程能力。
共 29 篇
Moonshot 把 Kimi K2.6 的重点押在 coding、长程执行和 agent swarm 上,这不只是一次模型迭代,更像是在抢“开源代理工作流默认底座”的位置。它真正有意思的地方,不是单项分数多高,而是把长时间、多工具、多子任务协同这件事讲得越来越像工程能力。
一个爆火的 GitHub 项目,想解决的核心问题是 agent 开发里的失控感。它把提需求、做设计、拆计划、TDD、评审和收尾串成默认流程,让 AI 编程更像工程,而不只是补全。
Anthropic 发布 Claude Mythos Preview 和 Project Glasswing,展示出足以发现长期潜伏漏洞、甚至生成高成功率 exploit 的能力,但选择暂不向公众开放。真正值得关注的不是模型又强了多少,而是高风险能力终于开始被当成治理问题,而不只是产品卖点。
Nick Baumann 讲了一个很实用的经验,给 Codex 最好的工具往往不是直接塞原始系统访问,而是做一层 bespoke CLI,把噪音压掉,把输入输出变成稳定命令。重点不只是“能接入”,而是让 agent 真正能反复、可靠、低摩擦地调用。
Claude Managed Agents 进入公测,Anthropic 不再只提供模型和 API,而是把 agent harness、运行环境和生产基础设施一起打包。真正的变化不是又多了一个新功能,而是大模型厂商开始吞掉原本属于 agent 框架和平台层的地盘。
HappyHorse 1.0 以 150 亿参数统一单流架构亮相,在 Artificial Analysis 文本转视频和图转视频双榜登顶。带队的是前快手副总裁、Kling AI 技术负责人张迪,2025 年底加入淘天集团,蛰伏数月后交出的第一份公开答卷。
Anthropic 宣布 Project Glasswing,用未公开的 Claude Mythos Preview 帮关键软件找漏洞,还拉来一批科技和金融公司一起做防守。真正值得注意的不是发布了一个新模型,而是它已经强到让 Anthropic 不敢直接全量放出来。
苹果批准了能让 AMD 和 Nvidia 外接显卡在 Apple Silicon Mac 上运行的新驱动,但用途被卡得很死:只服务 AI 计算,不服务游戏和图形加速。这不是苹果回心转意,而是它开始承认 AI 工作负载对外部算力的真实需求。
一条爆火帖子把 Gemma-4-31B 的“破解版”推上了桌面。真正值得看的,不只是模型被解限,而是开源模型、安全对齐和本地部署之间那条越来越松的边界。
Google 发布 Gemma 4,把“开源模型竞争”从单纯拼参数,往设备适配、代理工作流和商业可用许可上拉了一层。真正值得看的是,它开始认真争夺本地 AI 和开发者生态的入口。
OpenMed 把 mRNA 优化这件事从“高门槛生物工程”往“可复用的开源流水线”推了一步。更值得注意的不是单个指标,而是他们证明了跨物种、低成本、可复现实验这三件事可以同时成立。
Cheng Lou 抛出的不只是一个 TypeScript 文本测量算法,而是在试图把网页排版从 DOM 测量和 reflow 里抽出来。它未必会立刻改写前端开发,但确实戳中了下一代界面系统最底层的一根刺。
Google AI Studio 上线 Gemini 3.1 Flash Live,重点不是又发了一个新模型,而是把实时语音与视觉 Agent 的延迟、指令遵循和多语言能力一起往可用区间推了一截。这类发布真正值得看的,不是 demo 漂不漂亮,而是它是否开始接近“能稳定上线”的门槛。
一次看起来像是官网误放的页面缓存,把 Anthropic 还没正式发布的新模型 Mythos/Capybara 提前暴露了出来。真正值得注意的不是名字,而是它被定位在 Opus 之上,并且首先瞄准的是网络安全场景。
NVIDIA 最新的 AVO 研究,不只是把代码生成做得更强,而是把 Agent 直接抬成了“进化算子”。真正值得警惕的不是它赢了多少百分点,而是它开始能在几乎没人盯着的情况下,持续做出硬件级优化判断。
LiteLLM 在 PyPI 上出现被投毒版本,恶意 `.pth` 文件会在 Python 启动时自动执行,目标不是单纯搞破坏,而是直接打开发者机器、云凭证和 Kubernetes 集群。这件事真正危险的地方,是 AI 开发工具链里“一个常用依赖”已经足够成为基础设施级入口。
SkyPilot 团队把 Claude Code 接到 Karpathy 的 autoresearch 项目上,再给它 16 张 GPU 和一个 Kubernetes 集群。结果不只是实验跑得更快,而是 agent 的研究方法本身变了:从串行试错,变成并行搜索、分层验证,甚至学会了按 H100 和 H200 的差异来分配实验。
Cursor 发布 Composer 2,主打前沿级编程能力与更低输入成本,同时推出更快版本作为默认选项。比起一次常规模型更新,这更像是在重新定义 AI 编程工具里的性价比基线。
Nat Eliason 分享了他与 AI 员工 Felix 的合作历程——这个运行在 Mac Mini 上的 OpenClaw 在不到三周内赚了 1.4 万美元,并且正在向 100 万美元的年度目标迈进。
Google Labs 推出 Stitch,把自然语言、交互原型和品牌设计系统压进同一条工作流里。它不只是又一个 AI 画界面工具,更像是在抢“谁先接管产品定义到设计落地的第一公里”。
Anthropic 这篇关于 Claude Code Skills 的总结,最有价值的地方不是技巧清单本身,而是把 Skill 从“一个提示词文件”重新定义成了组织生产力的封装单位。真正拉开差距的,不是谁会写几段 markdown,而是谁能把知识、脚本、验证、数据接口和长期维护一起做成可复用资产。
清华团队开源的 OpenMAIC,不只是把资料丢给模型再吐一份讲稿,而是把讲课、互动、白板、测验和导出课件串成了一个完整课堂。真正值得警惕的不是又多了一个 demo,而是 AI 教学产品里最贵的那层“编排能力”开始被开源公共化。
阿里成立 ATH 事业群后,钉钉团队随即发布企业级 AI 原生工作平台“悟空”。这件事最值得看的,不是发布会上的热闹口号,而是阿里开始把组织、平台、权限和 Skill 生态一起打包,去抢企业级 Agent 的操作系统位置。
这次 GTC 最值得看的,不是某一块新芯片,而是 NVIDIA 把芯片、网络、桌面系统、代理运行时、开源模型和行业方案重新打包成一整套默认选项。它想卖的已经不是 GPU,而是未来 AI 工厂的操作系统。
乐天开始提供日语特化 LLM「Rakuten AI 3.0」,并以 Apache 2.0 许可免费公开。它真正值得看的,不只是参数规模,而是日本本土模型生态终于开始从“会用海外模型”走向“要做自己的语言层能力”。
一条广泛传播的 X 帖子指出,360 新发布的 AI 助手安装包中疑似包含了 `*.myclaw.360.cn` 的 SSL 私钥。如果情况属实,这已经不是普通漏洞,而是把整条信任链主动送到了公开互联网上。
一条关于阿里测试 18 个 AI agents 的帖子,把 AI Coding 的真正短板说透了:让模型把代码“先写出来”已经不难,难的是在长周期维护里不持续引入回归和技术债。真正的问题不是首轮生成,而是后续谁来接住。
过去几个月,MCP 从“万物皆可协议化”的明星,迅速变成不少人口中的历史包袱。但真正过时的不是 MCP,而是把个人效率工具和团队级 agent 基础设施混为一谈的判断方式。
真正拖慢 AI agent 的,很多时候不是模型能力,而是网页交互这层老接口。如果网站开始直接把能力暴露给 agent 调用,今天这套靠截图、点按钮和猜表单的玩法,大概率只是过渡形态。