大模型生态 2026年4月8日

Anthropic 把最强找洞模型先锁进了安全实验室

Anthropic 宣布 Project Glasswing，用未公开的 Claude Mythos Preview 帮关键软件找漏洞，还拉来一批科技和金融公司一起做防守。真正值得注意的不是发布了一个新模型，而是它已经强到让 Anthropic 不敢直接全量放出来。

#AI #Anthropic #Cybersecurity #Claude

来源参考： X / Anthropic

Anthropic 这次放出来的信号很直接：有些模型能力一旦跨过阈值，首发场景就不再是聊天、写代码或者卖 API，而是先拿去堵漏洞。

Anthropic Project Glasswing 官方配图

他们宣布了一个叫 Project Glasswing 的计划，核心是用还没公开发布的 Claude Mythos Preview 去扫描和加固全球最关键的软件系统。按照目前披露的信息，这个模型在软件漏洞发现上的表现，已经接近甚至超过绝大多数顶尖人工安全研究员。换句话说，这不是“AI 可以辅助安全团队”那种温和叙事，而是开始逼近“AI 本身就是一个非常强的漏洞猎手”。

更有意思的是，Anthropic 没把这种能力直接包装成一个全员可用的新产品，而是先做成一个高度受控的防守计划。首批合作方包括 AWS、Apple、Google、Microsoft、NVIDIA、Palo Alto Networks、JPMorganChase，以及 Linux Foundation 等机构。Anthropic 还承诺给这个计划投入最高 1 亿美元的 usage credits，并向开源安全组织直接捐款。这套动作说明他们判断得很清楚：一旦模型能大规模发现并利用漏洞，防守方如果拿不到同等级工具，攻守平衡会迅速失真。

这件事的影响，不只是“Anthropic 又发了个厉害模型”。它更像是在提前回答一个越来越现实的问题：当前沿模型开始具备强攻击面理解能力之后，应该先商业化，还是先安全托管？Anthropic 给出的答案是后者。至少在 Mythos Preview 这个级别上，他们显然不愿意赌“先放出去再慢慢补规则”。

我觉得这里最值得咂摸的一点，是 AI 公司对自己模型风险边界的态度正在发生变化。以前大家讨论模型能力，更多还是围绕 benchmark、上下文长度、价格和推理速度。现在如果一个模型在真实世界里能高效找出高危漏洞，它的含义就完全不一样了。这不只是更聪明，而是更接近基础设施级能力。 一旦被坏人系统化利用，后果未必比自动化钓鱼、垃圾内容生成这些熟悉风险更轻。

当然，风险和不确定性也不少。第一，外界目前看到的仍然是 Anthropic 主导的披露口径，很多关键细节——比如 Mythos Preview 的具体测试范围、误报率、在封闭软件中的稳定性——都还不透明。第二，把能力锁在少数合作伙伴手里，确实能降低扩散风险，但也会带来新的权力集中问题：谁有资格接触这种能力，谁来决定“防守用途”和“进攻用途”的边界？第三，如果 Anthropic 的判断成立，那么别家前沿模型大概率也会走到类似临界点，只是有人先说了出来，有人还没说。

所以我对 Project Glasswing 的理解，不是一次普通产品发布，而是一个分水岭信号：前沿模型开始从“生成内容”走向“介入关键系统”，AI 公司的首要任务也从发布能力，变成管理能力。 这比任何一次参数、榜单或者 demo 更新都更值得认真看。

参考链接：