Fable 5重新上线，但这次Anthropic带来了一套AI越狱“通用量表”

原文: More details on Fable 5’s cyber safeguards and our jailbreak framework

Anthropic公开Fable 5安全分类器的四级判定标准，并发布AI越狱严重性框架草案，为行业建立统一的风险沟通语言。

核心要点

安全分类器将网络安全使用分为四类：禁止、高风险、敏感、良性，根据上下文智能判定是否阻止、模糊处理或放行。
首次提出AI越狱严重性框架，对越狱攻击分级，从轻微到严重，旨在统一开发者、企业、政府间的风险描述。
该框架借鉴了漏洞评分系统，可能成为行业标准，帮助外部研究人员通过HackerOne提交越狱漏洞。
Fable 5重新部署，强调平衡攻防双重用途，允许防御性网络安全功能，但严防恶意利用。

深度解读

当 Claude Fable 5 重新部署的消息传来，大多数人关注的是模型性能，但 Anthropic 同时公布的这份安全说明，可能才是真正影响行业走向的事件。因为它试图回答一个困扰 AI 安全领域已久的难题：面对既能攻又能防的网络安全能力，我们该如何划定红线？

双重用途的困境，一刀切不是答案

常规思路是“禁止一切危险行为”，但网络安全具有典型的双重用途。例如，扫描代码库查找漏洞，防御者用来加固系统，攻击者却可能用来寻找突破口。如果模型安全策略过于粗暴，要么毫无防护，要么把合理的渗透测试也一并封杀。Fable 5 的安全分类器给出的解方是：分四级判定。

第一级“禁止使用”，对应可直接造成重大损失或绝大部分情况下有害的活动，比如主动利用已知漏洞攻击未授权系统。第二级“高风险”，指可能有害但存在一些合法防御场景，例如编写漏洞利用代码，此类请求会遇到严格限制或淡化输出。第三级“敏感”，比如一般的网络扫描或信息收集，模型可能会谨慎回答并附上提醒。第四级“良性”，明确用于防御，如审计自己系统的安全配置，可直接提供完整答案。

这个分级就像交通灯，不是简单地禁止开车，而是根据目的地和驾驶行为判断：去维修站可以，但飙车不行。它让模型在安全与实用间找到了更精细的平衡点。

越狱严重性框架：从“有没有漏洞”到“漏洞有多痛”

更让安全圈兴奋的，是 Anthropic 首次公开的 AI 越狱严重性框架草案。过去，我们讨论越狱时常陷入混乱：有人的“越狱”只是让模型说几句粗话，而有的则能完全绕过安全策略指导危险操作。二者危害天差地别，却缺乏公认的评级标准。

新框架试图为越狱行为建立严重性等级，可能包括多重维度：越狱是否可稳定复现？解锁了哪些类别的受限制内容？是否仅影响单次对话，还是可持续改变模型后续行为？危害程度如何？这与网络安全中 CVSS（通用漏洞评分系统）的逻辑非常相似——不只报告漏洞存在，还量化其严重性。

有了这套语言，AI 公司向监管机构通报时可以精确说明“发现一个 3 级越狱，可能解锁敏感网络工具”，而不是模糊地说“有问题”。政府的政策制定、企业采购评估、安全研究员的赏金计划，也都有了统一的参考基准。Anthropic 甚至为此启动了 HackerOne 悬赏，邀请外部人员按此框架提交发现。

趋势：透明化是安全的下一个台阶

这则公告揭示了一个关键趋势：AI 前沿公司正从“隐藏安全机制”转向“分级透明”。过去厂商常以黑箱方式处理安全，唯恐讨论太多反被利用。但 Fable 5 的做法表明，公开分类逻辑和越狱框架，不仅能引导研究者合规测试，还能建立公信力，并推动行业形成事实标准。

对普通开发者和企业，这套框架也有实际价值。你可以参照它来评估自己应用的风险程度：如果你的产品只涉及“良性”类别，大可放心调用；若触及“敏感”或“高风险”，则需要额外审计和授权控制。安全不再是一个玄学参数，而是一份可理解、可执行的等级说明。

当然，有人担心公开框架会为攻击者提供“说明书”，但安全史反复证明，透明化和集体防御远比秘密保安有效。越狱框架的最终目标，是让整个生态在共同规则下更快地发现和修复问题。

Anthropic 明确表示这个草案仍很早期，正广泛征集意见。这意味着每个 AI 从业者都有机会参与塑造未来的 AI 安全基准。如果你关心 AI 的负责任发展，现在正是加入讨论的时候。

原文地址: More details on Fable 5’s cyber safeguards and our jailbreak framework

分析由 BitByAI 生成 · 阅读原文

原文来自 Anthropic News · 由 BitByAI 自动解读