ChipHub
大模型生态 2026年4月8日

Anthropic 把最强找洞模型先锁进了安全实验室

Anthropic 宣布 Project Glasswing,用未公开的 Claude Mythos Preview 帮关键软件找漏洞,还拉来一批科技和金融公司一起做防守。真正值得注意的不是发布了一个新模型,而是它已经强到让 Anthropic 不敢直接全量放出来。

来源参考: X / Anthropic

Anthropic 这次放出来的信号很直接:有些模型能力一旦跨过阈值,首发场景就不再是聊天、写代码或者卖 API,而是先拿去堵漏洞。

Anthropic Project Glasswing 官方配图

他们宣布了一个叫 Project Glasswing 的计划,核心是用还没公开发布的 Claude Mythos Preview 去扫描和加固全球最关键的软件系统。按照目前披露的信息,这个模型在软件漏洞发现上的表现,已经接近甚至超过绝大多数顶尖人工安全研究员。换句话说,这不是“AI 可以辅助安全团队”那种温和叙事,而是开始逼近“AI 本身就是一个非常强的漏洞猎手”。

更有意思的是,Anthropic 没把这种能力直接包装成一个全员可用的新产品,而是先做成一个高度受控的防守计划。首批合作方包括 AWS、Apple、Google、Microsoft、NVIDIA、Palo Alto Networks、JPMorganChase,以及 Linux Foundation 等机构。Anthropic 还承诺给这个计划投入最高 1 亿美元的 usage credits,并向开源安全组织直接捐款。这套动作说明他们判断得很清楚:一旦模型能大规模发现并利用漏洞,防守方如果拿不到同等级工具,攻守平衡会迅速失真。

这件事的影响,不只是“Anthropic 又发了个厉害模型”。它更像是在提前回答一个越来越现实的问题:当前沿模型开始具备强攻击面理解能力之后,应该先商业化,还是先安全托管?Anthropic 给出的答案是后者。至少在 Mythos Preview 这个级别上,他们显然不愿意赌“先放出去再慢慢补规则”。

我觉得这里最值得咂摸的一点,是 AI 公司对自己模型风险边界的态度正在发生变化。以前大家讨论模型能力,更多还是围绕 benchmark、上下文长度、价格和推理速度。现在如果一个模型在真实世界里能高效找出高危漏洞,它的含义就完全不一样了。这不只是更聪明,而是更接近基础设施级能力。 一旦被坏人系统化利用,后果未必比自动化钓鱼、垃圾内容生成这些熟悉风险更轻。

当然,风险和不确定性也不少。第一,外界目前看到的仍然是 Anthropic 主导的披露口径,很多关键细节——比如 Mythos Preview 的具体测试范围、误报率、在封闭软件中的稳定性——都还不透明。第二,把能力锁在少数合作伙伴手里,确实能降低扩散风险,但也会带来新的权力集中问题:谁有资格接触这种能力,谁来决定“防守用途”和“进攻用途”的边界?第三,如果 Anthropic 的判断成立,那么别家前沿模型大概率也会走到类似临界点,只是有人先说了出来,有人还没说。

所以我对 Project Glasswing 的理解,不是一次普通产品发布,而是一个分水岭信号:前沿模型开始从“生成内容”走向“介入关键系统”,AI 公司的首要任务也从发布能力,变成管理能力。 这比任何一次参数、榜单或者 demo 更新都更值得认真看。

参考链接: