← 返回首页 — Anthropic News — 进阶
模型公司 · 深度解读 · IMPACT 8/10

Fable 5重新上线,但这次Anthropic带来了一套AI越狱“通用量表”

原文: More details on Fable 5’s cyber safeguards and our jailbreak framework

Anthropic公开Fable 5安全分类器的四级判定标准,并发布AI越狱严重性框架草案,为行业建立统一的风险沟通语言。

核心要点
  • 安全分类器将网络安全使用分为四类:禁止、高风险、敏感、良性,根据上下文智能判定是否阻止、模糊处理或放行。
  • 首次提出AI越狱严重性框架,对越狱攻击分级,从轻微到严重,旨在统一开发者、企业、政府间的风险描述。
  • 该框架借鉴了漏洞评分系统,可能成为行业标准,帮助外部研究人员通过HackerOne提交越狱漏洞。
  • Fable 5重新部署,强调平衡攻防双重用途,允许防御性网络安全功能,但严防恶意利用。
深度解读

当 Claude Fable 5 重新部署的消息传来,大多数人关注的是模型性能,但 Anthropic 同时公布的这份安全说明,可能才是真正影响行业走向的事件。因为它试图回答一个困扰 AI 安全领域已久的难题:面对既能攻又能防的网络安全能力,我们该如何划定红线?

双重用途的困境,一刀切不是答案

常规思路是“禁止一切危险行为”,但网络安全具有典型的双重用途。例如,扫描代码库查找漏洞,防御者用来加固系统,攻击者却可能用来寻找突破口。如果模型安全策略过于粗暴,要么毫无防护,要么把合理的渗透测试也一并封杀。Fable 5 的安全分类器给出的解方是:分四级判定。

第一级“禁止使用”,对应可直接造成重大损失或绝大部分情况下有害的活动,比如主动利用已知漏洞攻击未授权系统。第二级“高风险”,指可能有害但存在一些合法防御场景,例如编写漏洞利用代码,此类请求会遇到严格限制或淡化输出。第三级“敏感”,比如一般的网络扫描或信息收集,模型可能会谨慎回答并附上提醒。第四级“良性”,明确用于防御,如审计自己系统的安全配置,可直接提供完整答案。

这个分级就像交通灯,不是简单地禁止开车,而是根据目的地和驾驶行为判断:去维修站可以,但飙车不行。它让模型在安全与实用间找到了更精细的平衡点。

越狱严重性框架:从“有没有漏洞”到“漏洞有多痛”

更让安全圈兴奋的,是 Anthropic 首次公开的 AI 越狱严重性框架草案。过去,我们讨论越狱时常陷入混乱:有人的“越狱”只是让模型说几句粗话,而有的则能完全绕过安全策略指导危险操作。二者危害天差地别,却缺乏公认的评级标准。

新框架试图为越狱行为建立严重性等级,可能包括多重维度:越狱是否可稳定复现?解锁了哪些类别的受限制内容?是否仅影响单次对话,还是可持续改变模型后续行为?危害程度如何?这与网络安全中 CVSS(通用漏洞评分系统)的逻辑非常相似——不只报告漏洞存在,还量化其严重性。

有了这套语言,AI 公司向监管机构通报时可以精确说明“发现一个 3 级越狱,可能解锁敏感网络工具”,而不是模糊地说“有问题”。政府的政策制定、企业采购评估、安全研究员的赏金计划,也都有了统一的参考基准。Anthropic 甚至为此启动了 HackerOne 悬赏,邀请外部人员按此框架提交发现。

趋势:透明化是安全的下一个台阶

这则公告揭示了一个关键趋势:AI 前沿公司正从“隐藏安全机制”转向“分级透明”。过去厂商常以黑箱方式处理安全,唯恐讨论太多反被利用。但 Fable 5 的做法表明,公开分类逻辑和越狱框架,不仅能引导研究者合规测试,还能建立公信力,并推动行业形成事实标准。

对普通开发者和企业,这套框架也有实际价值。你可以参照它来评估自己应用的风险程度:如果你的产品只涉及“良性”类别,大可放心调用;若触及“敏感”或“高风险”,则需要额外审计和授权控制。安全不再是一个玄学参数,而是一份可理解、可执行的等级说明。

当然,有人担心公开框架会为攻击者提供“说明书”,但安全史反复证明,透明化和集体防御远比秘密保安有效。越狱框架的最终目标,是让整个生态在共同规则下更快地发现和修复问题。

Anthropic 明确表示这个草案仍很早期,正广泛征集意见。这意味着每个 AI 从业者都有机会参与塑造未来的 AI 安全基准。如果你关心 AI 的负责任发展,现在正是加入讨论的时候。


原文地址: More details on Fable 5’s cyber safeguards and our jailbreak framework

分析由 BitByAI 生成 · 阅读原文

原文来自 Anthropic News · 由 BitByAI 自动解读