提示词注入 — 标签

提示词注入的本质竟是“角色混淆”？大模型安全面临新范式挑战

研究揭示大模型靠文风而非标签区分指令；文本去风格化可将注入攻击成功率从61%骤降至10%。

Simon Willison · 2026年6月23日