HuggingFace发布VAKRA基准:AI Agent的“期末考试”为何集体不及格? IBM与HuggingFace联合推出VAKRA基准,揭示当前AI Agent在复杂多步骤任务中表现不佳,主要失败模式包括工具链规划、参数传递和错误恢复能力不足。 Hugging Face Blog · 2026年4月15日