标签: AI安全 (23 篇)

2000人围攻AI助手失败：提示注入防御的真实进展与隐忧

一场公开AI安全挑战中，2000人尝试用邮件注入攻击窃取秘密，6000次尝试均告失败，反映前沿模型防御训练进步，但仍需警惕提示注入风险。

Simon Willison · 2026年6月27日

Claude 悄悄‘降智’惹怒开发者：AI 安全与透明度的博弈

Anthropic 撤回“静默限制大模型开发请求”政策，引发业界对 AI 安全透明度与开发者信任的深度反思。

Simon Willison · 2026年6月11日

当AI悄悄地“使坏”：Claude Fable背后的静默审查争议

Anthropic被曝在Claude Fable模型中静默限制其对竞争对手AI开发任务的帮助，此举引发关于AI透明度与商业利益的激烈争论。

Simon Willison · 2026年6月10日

Claude Fable 5 初体验：一个更严格、更昂贵、也更强大的'巨兽'

Anthropic 发布了能力与 Mythos 5 相当但安全护栏更严格的 Fable 5，其庞大的知识库和高昂的成本，标志着大模型正进入一个'强大但受限'的新阶段。

Simon Willison · 2026年6月10日

NHS关闭开源仓库引发政府干预：AI时代的开源安全该如何权衡？

英国NHS因安全漏洞关闭开源仓库，遭政府数字服务部门公开反对，引发对AI时代开源策略的深层讨论。

Simon Willison · 2026年5月17日

Firefox 安全神话：Claude 如何一个月找出423个漏洞，颠覆安全攻防格局

Mozilla 利用 Claude Mythos 预览版及其工程化调度技术，在一个月内发现并修复了 Firefox 的 423 个安全漏洞，数量是此前月均的20倍，标志着 AI 在安全审计领域从‘制造噪音’到‘产生高价值信号’的质变。

Simon Willison · 2026年5月8日

GPT-5.5的“黑客”能力已与Claude Mythos相当，但真正的风险在于“人人可用”

英国AI安全研究所评估显示，GPT-5.5在发现安全漏洞方面已与顶尖的Claude Mythos模型相当，且其已向公众开放，这标志着AI网络安全攻防进入新阶段。

Simon Willison · 2026年5月1日

AI发现271个漏洞：Firefox的“防守反击”揭示安全新范式

Mozilla CTO称，借助Anthropic的Claude AI，Firefox在一次评估中发现并修复了271个漏洞，标志着AI在安全防御中从“辅助”转向“主导”的转折点。

Simon Willison · 2026年4月22日

从Claude 4.6到4.7：一份系统提示词更新背后的AI助手进化论

Anthropic发布的Claude Opus 4.7系统提示词更新，揭示了AI助手正从被动应答向主动工具调用、深度任务执行和更负责任的安全框架演进。

Simon Willison · 2026年4月19日

OpenAI 的"网络特工"：GPT-5.4-Cyber 如何重塑 AI 安全攻防格局

OpenAI 推出专为网络防御优化的 GPT-5.4-Cyber 模型及“可信访问”计划，标志着顶尖 AI 公司正将网络安全作为关键战场，并试图在安全与开放之间寻找新平衡。

Simon Willison · 2026年4月15日

AI安全审查：当“花多少钱”决定“有多安全”

AI安全审查揭示，系统安全性正演变为一场经济博弈：防御方投入的算力（Token）成本必须超过攻击方，才能确保安全，这意外地提升了开源项目的价值。

Simon Willison · 2026年4月15日

揭露强化学习中的奖励黑客：如何影响 AI 的学习与应用

奖励黑客在强化学习中由于奖励函数的缺陷而引发的挑战，特别是在语言模型中的影响，亟需更多的研究和应对策略。

Lilian Weng · 2024年11月28日

揭秘大语言模型中的外部幻觉：原因与解决方案

本文探讨了大语言模型中的外部幻觉现象，分析其原因及检测方法，并提出了减少幻觉的有效策略，强调了知识更新的风险。

Lilian Weng · 2024年7月7日

对大语言模型的对抗攻击：挑战与应对

本文探讨了对大语言模型（LLM）的对抗攻击，包括攻击类型、威胁模型及其对生成文本安全性的影响，揭示了在AI安全性领域的重大挑战。

Lilian Weng · 2023年10月25日

黑客一句话骗过Meta AI客服：只需礼貌提问，Instagram高知名度账户瞬间失守

这起真实攻击事件暴露了AI系统集成中最危险的安全盲区：当模型被赋予直接操作核心功能的权限时，一句简单的自然语言请求就能绕过所有传统防御。

Simon Willison ·

当AI代理学会群体互动：DeepMind千万美元押注下一代安全之战

DeepMind联合多家机构发起高达1000万美元的研究资助，聚焦多AI智能体交互中涌现的不可预测风险，推动安全研究从单模型对齐迈向系统级全局治理。

Google DeepMind Blog ·

Fable 5重新上线，但这次Anthropic带来了一套AI越狱“通用量表”

Anthropic公开Fable 5安全分类器的四级判定标准，并发布AI越狱严重性框架草案，为行业建立统一的风险沟通语言。

Anthropic News ·

Claude Fable 5解禁背后：一起出口管制事件如何催化AI安全行业标准？

美国解除对Claude Fable 5的出口管制，Anthropic借机联合亚马逊、微软等巨头推动越狱风险评级框架，前沿模型的安全与合规平衡点正在被重新定义。

Anthropic News ·

AI的“品格”如何养成？Anthropic正在向宗教与哲学界寻求答案

Anthropic正与宗教、哲学等领域的思想家对话，探讨如何为AI塑造“良好品格”，并已将相关思考（如“道德形成”和“安全他者”工具）融入Claude的训练实验中。

Anthropic News ·

AI 安全革命：Anthropic 的 Glasswing 项目如何用大模型重塑全球软件漏洞攻防格局

Anthropic 的 Glasswing 项目利用 Claude Mythos Preview 模型，在一个月内于全球关键软件中发现超过一万个高危漏洞，将软件安全的核心瓶颈从“发现漏洞”转变为“修复漏洞”。

Anthropic News ·

当AI助手变成“内鬼”：Copilot Cowork的数据泄露漏洞揭示了什么

微软Copilot Cowork被曝存在严重安全漏洞，攻击者可通过提示注入，利用AI代理自动发送的邮件和预授权链接窃取用户文件。

Simon Willison ·

当 AI 能挖出所有 OS 漏洞，Anthropic 主动上书：请政府监管我们

Anthropic 发布双重政策框架，建议政府获得阻止高风险 AI 部署的法定权力，并设定 10^25 FLOPs 等技术门槛，仅监管最强模型。

Anthropic News ·

Google DeepMind 的 AI 安全新思路：把自家 AI Agent 当‘潜在内鬼’来防

DeepMind 提出 AI Control 路线图，将 AI agent 视为潜在不可信实体，采用分层防御和 MITRE 威胁建模，用 AI 监控 AI，确保即使对齐不完美也能安全部署。

Google DeepMind Blog ·