GPT-5.5的“黑客”能力已与Claude Mythos相当，但真正的风险在于“人人可用”

原文: Our evaluation of OpenAI's GPT-5.5 cyber capabilities

英国AI安全研究所评估显示，GPT-5.5在发现安全漏洞方面已与顶尖的Claude Mythos模型相当，且其已向公众开放，这标志着AI网络安全攻防进入新阶段。

AI安全大语言模型网络安全模型评估行业趋势

核心要点

英国AI安全研究所（AISI）对GPT-5.5进行了网络安全能力评估。
评估发现其在发现安全漏洞方面与Claude Mythos模型能力相当。
关键区别在于，GPT-5.5目前已对公众普遍可用。
这标志着高级AI网络攻防能力从少数实验室走向了大众市场。

深度解读

起因：为什么现在要聊GPT-5.5的“黑客”能力？

这则消息来自知名开发者Simon Willison的博客链接分享，核心信息点是：英国AI安全研究所（AISI）在之前评估了Anthropic的Claude Mythos模型（一个以安全研究见长的版本）后，现在完成了对OpenAI最新GPT-5.5模型的类似评估。评估聚焦于一个极其敏感且重要的领域——发现安全漏洞的“网络能力”。结论是：GPT-5.5的表现与Claude Mythos“相当”。这则简短的信息之所以重要，是因为它把两个关键变量放在了天平上：能力和可及性。

拆解：核心发现与通俗解读

用大白话讲，就是顶尖的政府安全机构测试后认为，现在有两个AI模型都达到了“高级网络安全研究员”的水平，能像专家一样找出软件和系统里的安全漏洞。一个是我们已知很强的Claude Mythos（可以理解为“实验室里的尖端武器”），另一个就是刚刚发布的GPT-5.5。但这里有一个“魔鬼细节”：Claude Mythos目前并未对普通公众开放，它更像是一个受控的、用于研究和特定场景的工具。而GPT-5.5，根据评估报告发布时的信息，是“generally available right now”——现在普遍可用。这意味着，理论上，任何能访问到它的开发者、研究员，甚至别有用心的人，都可以使用这项能力。这就像宣布，原本只有少数顶尖网络安全公司才拥有的“漏洞自动发现引擎”，现在通过一个云API就能让成千上万的人用上。其影响是数量级上的差异。

趋势洞察：AI安全能力的“民主化”与双刃剑效应

这件事揭示了一个更深层、也更令人不安的趋势：AI驱动的高级网络安全能力正在快速“民主化”。过去，发现一个复杂的零日漏洞需要顶尖安全团队数周甚至数月的钻研。现在，一个足够强大的AI模型可能在几分钟内完成初步扫描和模式识别。当这种能力不再被少数机构垄断，而是成为一种可轻易获取的“商品”时，整个网络安全攻防的格局就被彻底改变了。

这带来了一把锋利的“双刃剑”。对于防御方（企业、安全团队）来说，这是一个巨大的福音。他们可以利用GPT-5.5这样的工具，以前所未有的速度和规模对自己的系统进行“压力测试”，在攻击者之前发现并修补漏洞，实现“AI增强的主动防御”。然而，对于攻击方（黑客、恶意行为者）而言，这同样是一个力量倍增器。它降低了发动高质量网络攻击的技术门槛，可能使得更多、更频繁的自动化漏洞探测和利用成为可能。安全研究所发布这样的评估，其潜台词也是在向整个行业发出预警：我们即将进入一个AI能力被双方同时大规模利用的网络安全新时代。

实用价值：开发者与企业该如何应对？

对于身处IT和互联网行业的读者而言，这件事不是遥远的新闻，而是迫在眉睫的行动指南。

重新评估你的安全工具链：你的安全团队是否已经开始探索将大语言模型（LLM）集成到SAST（静态应用安全测试）、DAST（动态应用安全测试）或渗透测试流程中？GPT-5.5的评估结果表明，这不再是“玩具”或实验，而是具备了与专业安全模型相当的实际能力。现在是认真考虑“AI赋能安全”的时候了。
加快你的防御节奏：如果攻击者能更快地发现漏洞，那么你的补丁管理和漏洞响应周期就必须更快。利用AI工具进行持续、自动化的安全扫描，将成为维持安全水位的必要手段，而非可有可无的锦上添花。
关注模型的安全对齐与滥用防范：作为使用者，我们不仅关心模型有多强，更关心它是否“安全”。OpenAI等公司如何为GPT-5.5设置护栏，防止其被直接用于恶意代码生成或攻击自动化，将成为未来监管和社区关注的核心焦点。AISI的评估本身，就是这种外部监督的一部分。

反常识/意外角度

大多数人可能会直觉地认为，Claude Mythos作为专攻安全的模型，应该比通用的GPT-5.5更强。但评估结果是“comparable”（相当）。这暗示了一个可能被忽略的事实：通用前沿模型的综合能力进化速度极快，其在特定垂直领域（如网络安全）的表现，可能很快就会追平甚至超越那些专为该领域设计的“专家模型”。通用模型的庞大数据量和强大推理能力，本身就是一种强大的“元能力”，可以迁移到各个领域。因此，未来的竞争可能不仅是专精模型之间的竞争，更是通用模型“一专多能”潜力的释放。另一个意外点是评估机构的角色——英国AI安全研究所（AISI）。这标志着国家级的安全机构正在从传统的网络安全审查，快速切入到对AI模型本身能力的评估和监管中，这将成为未来全球AI治理的一个重要风向标。

原文地址: Our evaluation of OpenAI's GPT-5.5 cyber capabilities

分析由 BitByAI 生成 · 阅读原文

原文来自 Simon Willison · 由 BitByAI 自动解读