AI 如何评估网络安全攻防能力？四个核心组件与实战演练

原文: Patterns for Building Cybersecurity Evals

本文拆解了网络安全评估的四大核心组件，并介绍了如何通过多级任务来更精细地衡量 AI 的攻防能力。

网络安全人工智能评估漏洞利用攻防演练基准测试

核心要点

网络安全评估通常包含四大核心组件：沙箱目标、影响任务难度的输入、工具集和评分器。
与通用评估类似，但专门针对网络安全领域进行调整，以测试模型发现和利用漏洞的能力。
传统基于最终结果的评分过于粗略，因此引入了沿攻击链的多级子任务来获得更精细的能力图谱。
评估重点在于结果而非方法，例如成功利用漏洞获取隐藏的标志字符串。
代表性基准测试如 Cybench，使用 CTF 任务和首次解决时间来衡量难度。

深度解读

起因：为什么现在需要聊网络安全评估？ 随着 AI 模型能力的飞速提升，一个关键问题浮出水面：AI 在网络安全攻防中到底扮演什么角色？是帮助防御者更快地发现漏洞，还是让攻击者更容易发动攻击？要回答这个问题，我们首先需要一套科学的评估体系来衡量 AI 模型的网络安全能力。Eugene Yan 的这篇文章，正是为我们拆解了构建这类评估系统的核心模式。

拆解：网络安全评估的四大支柱 文章指出，一个有效的网络安全评估通常围绕四个核心组件构建，这类似于一个精心设计的实验环境。

首先是沙箱目标，也就是被测试的脆弱系统。它通常运行在隔离的 Docker 容器中，可能是一个存在漏洞的代码库，也可能是一个包含各种服务和主机的网络。这确保了测试环境安全可控，不会影响真实世界。

其次是影响任务难度的输入。这部分设计非常巧妙，它模拟了不同的攻击场景。最简单的情况是提供漏洞描述甚至补丁，这类似于攻击者通过逆向工程补丁来构建漏洞利用工具（One-day 漏洞利用）。而最具挑战性的场景是，模型只拿到脆弱的代码本身，对漏洞和补丁一无所知（Zero-day 漏洞发现）。通过调整输入信息的多少，可以阶梯式地测试模型的能力上限。

第三是工具集。AI 模型在执行任务时可以使用各种工具，比如 bash shell、读写工具、网络搜索、调试器、静态分析器等。这模拟了真实安全研究人员的工作流程，也测试了模型规划和使用工具的能力。

最后是评分器。它负责接收模型提交的工作成果（如一个有效的漏洞利用代码或一个捕获的标志），并给出即时反馈。评分通常是确定性的，例如，对于 C/C++ 内存错误，成功意味着触发 sanitizer 崩溃；对于未授权代码执行，成功意味着获取一个隐藏的标志字符串。

趋势洞察：从“结果论”到“过程论” 文章提出了一个非常重要的观点：仅基于最终结果评分过于粗略。一个模型可能成功找到了漏洞但无法构建利用工具（得0分），而另一个模型可能根本没找到漏洞（也得0分），这两者的能力差距巨大但评分无法区分。

因此，更先进的评估引入了沿攻击链的多级子任务来给予“部分分数”。这就像一个能力金字塔：

发现漏洞：在代码库中定位安全缺陷。
重现漏洞：构造一个能触发漏洞的概念验证代码。
利用漏洞：通过未授权代码执行在目标系统上实施攻击。
达成目标：最终实现攻击者的意图，如数据窃取、权限提升等。这种分级评估能更清晰地描绘出模型的能力边界，告诉我们它到底卡在哪一步，是“有心无力”还是“完全无头绪”。

实用价值：对开发者和企业的启示 对于关注 AI 安全的开发者和企业来说，这套评估模式有直接参考价值。首先，它提供了一个构建内部安全 AI 测试床的蓝图。其次，它提醒我们在采购或评估安全相关 AI 工具时，不能只看“能否发现漏洞”这样的二元结果，而应关注其在整个攻击链中的表现，比如漏洞定位的准确率、概念验证代码的生成能力等。这有助于更理性地评估 AI 在安全流程中的真实效用。

反常识/意外：攻防评估的“鸡生蛋”问题 文章隐含的一个深层挑战是评估基准本身的时效性。网络安全领域的漏洞和攻防技术迭代极快。一个今天有效的 CTF 题目，可能很快就被新的 AI 模型“背熟”答案。因此，持续更新和设计新颖的评估任务，本身就是一项艰巨的挑战。评估 AI 的安全能力，本身就是一个动态的、对抗性的过程。

原文地址: Patterns for Building Cybersecurity Evals

分析由 BitByAI 生成 · 阅读原文

原文来自 Eugene Yan · 由 BitByAI 自动解读