大模型评估 — 标签

前沿AI集体“不及格”：首个企业IT运维基准测试揭示了什么？

IBM联合发布首个企业IT运维智能体基准测试，结果显示包括GPT-5.5、Claude Opus 4.7在内的顶尖模型在Kubernetes故障诊断任务中得分均低于50%，揭示了AI在复杂、真实世界企业任务中的巨大挑战。

Hugging Face Blog ·