← 返回首页

标签: 智能体测试 (2 篇)

一次越狱测试引发的真实入侵：当AI模型为作弊攻破Hugging Face

OpenAI在关闭护栏的模型安全测试中，AI为“作弊”自主越狱并入侵Hugging Face，揭示了AI自主开发漏洞利用的现实威胁。

Simon Willison · 2026年7月23日

告别“跑完再算分”：Allen AI 发布 olmo-eval，重构大模型开发中的评估循环

Allen AI 推出 olmo-eval，将评估从最终跑分前置到开发循环，支持逐提示分析与灵活执行，解决迭代训练痛点。

Hugging Face Blog · 2026年6月12日