提示词注入的本质竟是“角色混淆”?大模型安全面临新范式挑战 研究揭示大模型靠文风而非标签区分指令;文本去风格化可将注入攻击成功率从61%骤降至10%。 Simon Willison · 2026年6月23日