前沿AI集体“不及格”:首个企业IT运维基准测试揭示了什么?
IBM联合发布首个企业IT运维智能体基准测试,结果显示包括GPT-5.5、Claude Opus 4.7在内的顶尖模型在Kubernetes故障诊断任务中得分均低于50%,揭示了AI在复杂、真实世界企业任务中的巨大挑战。
Hugging Face Blog ·
IBM联合发布首个企业IT运维智能体基准测试,结果显示包括GPT-5.5、Claude Opus 4.7在内的顶尖模型在Kubernetes故障诊断任务中得分均低于50%,揭示了AI在复杂、真实世界企业任务中的巨大挑战。