Kimi K2.6,把开源 coding agent 又往前推了一截
Moonshot 把 Kimi K2.6 的重点押在 coding、长程执行和 agent swarm 上,这不只是一次模型迭代,更像是在抢“开源代理工作流默认底座”的位置。它真正有意思的地方,不是单项分数多高,而是把长时间、多工具、多子任务协同这件事讲得越来越像工程能力。
共 21 篇
Moonshot 把 Kimi K2.6 的重点押在 coding、长程执行和 agent swarm 上,这不只是一次模型迭代,更像是在抢“开源代理工作流默认底座”的位置。它真正有意思的地方,不是单项分数多高,而是把长时间、多工具、多子任务协同这件事讲得越来越像工程能力。
一个爆火的 GitHub 项目,想解决的核心问题是 agent 开发里的失控感。它把提需求、做设计、拆计划、TDD、评审和收尾串成默认流程,让 AI 编程更像工程,而不只是补全。
Anthropic 发布 Claude Mythos Preview 和 Project Glasswing,展示出足以发现长期潜伏漏洞、甚至生成高成功率 exploit 的能力,但选择暂不向公众开放。真正值得关注的不是模型又强了多少,而是高风险能力终于开始被当成治理问题,而不只是产品卖点。
Nick Baumann 讲了一个很实用的经验,给 Codex 最好的工具往往不是直接塞原始系统访问,而是做一层 bespoke CLI,把噪音压掉,把输入输出变成稳定命令。重点不只是“能接入”,而是让 agent 真正能反复、可靠、低摩擦地调用。
Claude Managed Agents 进入公测,Anthropic 不再只提供模型和 API,而是把 agent harness、运行环境和生产基础设施一起打包。真正的变化不是又多了一个新功能,而是大模型厂商开始吞掉原本属于 agent 框架和平台层的地盘。
HappyHorse 1.0 以 150 亿参数统一单流架构亮相,在 Artificial Analysis 文本转视频和图转视频双榜登顶。带队的是前快手副总裁、Kling AI 技术负责人张迪,2025 年底加入淘天集团,蛰伏数月后交出的第一份公开答卷。
Anthropic 宣布 Project Glasswing,用未公开的 Claude Mythos Preview 帮关键软件找漏洞,还拉来一批科技和金融公司一起做防守。真正值得注意的不是发布了一个新模型,而是它已经强到让 Anthropic 不敢直接全量放出来。
苹果批准了能让 AMD 和 Nvidia 外接显卡在 Apple Silicon Mac 上运行的新驱动,但用途被卡得很死:只服务 AI 计算,不服务游戏和图形加速。这不是苹果回心转意,而是它开始承认 AI 工作负载对外部算力的真实需求。
一条爆火帖子把 Gemma-4-31B 的“破解版”推上了桌面。真正值得看的,不只是模型被解限,而是开源模型、安全对齐和本地部署之间那条越来越松的边界。
Google 发布 Gemma 4,把“开源模型竞争”从单纯拼参数,往设备适配、代理工作流和商业可用许可上拉了一层。真正值得看的是,它开始认真争夺本地 AI 和开发者生态的入口。
OpenMed 把 mRNA 优化这件事从“高门槛生物工程”往“可复用的开源流水线”推了一步。更值得注意的不是单个指标,而是他们证明了跨物种、低成本、可复现实验这三件事可以同时成立。
Google AI Studio 上线 Gemini 3.1 Flash Live,重点不是又发了一个新模型,而是把实时语音与视觉 Agent 的延迟、指令遵循和多语言能力一起往可用区间推了一截。这类发布真正值得看的,不是 demo 漂不漂亮,而是它是否开始接近“能稳定上线”的门槛。
一次看起来像是官网误放的页面缓存,把 Anthropic 还没正式发布的新模型 Mythos/Capybara 提前暴露了出来。真正值得注意的不是名字,而是它被定位在 Opus 之上,并且首先瞄准的是网络安全场景。
NVIDIA 最新的 AVO 研究,不只是把代码生成做得更强,而是把 Agent 直接抬成了“进化算子”。真正值得警惕的不是它赢了多少百分点,而是它开始能在几乎没人盯着的情况下,持续做出硬件级优化判断。
LiteLLM 在 PyPI 上出现被投毒版本,恶意 `.pth` 文件会在 Python 启动时自动执行,目标不是单纯搞破坏,而是直接打开发者机器、云凭证和 Kubernetes 集群。这件事真正危险的地方,是 AI 开发工具链里“一个常用依赖”已经足够成为基础设施级入口。
SkyPilot 团队把 Claude Code 接到 Karpathy 的 autoresearch 项目上,再给它 16 张 GPU 和一个 Kubernetes 集群。结果不只是实验跑得更快,而是 agent 的研究方法本身变了:从串行试错,变成并行搜索、分层验证,甚至学会了按 H100 和 H200 的差异来分配实验。
Google Labs 推出 Stitch,把自然语言、交互原型和品牌设计系统压进同一条工作流里。它不只是又一个 AI 画界面工具,更像是在抢“谁先接管产品定义到设计落地的第一公里”。
Anthropic 这篇关于 Claude Code Skills 的总结,最有价值的地方不是技巧清单本身,而是把 Skill 从“一个提示词文件”重新定义成了组织生产力的封装单位。真正拉开差距的,不是谁会写几段 markdown,而是谁能把知识、脚本、验证、数据接口和长期维护一起做成可复用资产。
清华团队开源的 OpenMAIC,不只是把资料丢给模型再吐一份讲稿,而是把讲课、互动、白板、测验和导出课件串成了一个完整课堂。真正值得警惕的不是又多了一个 demo,而是 AI 教学产品里最贵的那层“编排能力”开始被开源公共化。
阿里成立 ATH 事业群后,钉钉团队随即发布企业级 AI 原生工作平台“悟空”。这件事最值得看的,不是发布会上的热闹口号,而是阿里开始把组织、平台、权限和 Skill 生态一起打包,去抢企业级 Agent 的操作系统位置。
乐天开始提供日语特化 LLM「Rakuten AI 3.0」,并以 Apache 2.0 许可免费公开。它真正值得看的,不只是参数规模,而是日本本土模型生态终于开始从“会用海外模型”走向“要做自己的语言层能力”。