失败分析 — 标签

HuggingFace发布VAKRA基准：AI Agent的“期末考试”为何集体不及格？

IBM与HuggingFace联合推出VAKRA基准，揭示当前AI Agent在复杂多步骤任务中表现不佳，主要失败模式包括工具链规划、参数传递和错误恢复能力不足。

Hugging Face Blog · 2026年4月15日