前沿AI在企业IT运维中“不及格”:首个Agent化SRE基准测试揭示真实差距 首个针对企业IT运维(SRE)任务的Agent基准测试显示,包括GPT-5.5、Claude Opus 4.7在内的顶尖模型在诊断Kubernetes故障时得分均低于50%,表明AI在复杂、真实的IT运维场景中仍面临巨大挑战。 Hugging Face Blog · 2026年5月28日