标签: 基准测试 (9 篇)

AI 如何评估网络安全攻防能力？四个核心组件与实战演练

本文拆解了网络安全评估的四大核心组件，并介绍了如何通过多级任务来更精细地衡量 AI 的攻防能力。

Eugene Yan · 2026年6月21日

深度研究智能体混合调用内外部数据时，其查询日志会拼凑出企业机密；新基准与隐私强化训练法为这一隐患提供了量化标准与解法。

Hugging Face Blog · 2026年6月19日

AI评估成本正急剧攀升，单个智能体基准测试花费可达数万美元，其复杂性使其难以压缩，正成为限制AI研发的新计算瓶颈。

Hugging Face Blog · 2026年4月30日

IBM与HuggingFace联合推出VAKRA基准，揭示当前AI Agent在复杂多步骤任务中表现不佳，主要失败模式包括工具链规划、参数传递和错误恢复能力不足。

Hugging Face Blog · 2026年4月15日

Hugging Face 引入私有语音数据集以防止模型在公开测试集上“刷分”，旨在让语音识别排行榜更真实地反映模型在实际场景中的鲁棒性。

Hugging Face Blog ·

LlamaIndex发布首个面向AI Agent的文档解析基准ParseBench，从表格、图表等五个维度评估解析器，发现没有单一方法能全面胜任，LlamaParse Agentic在测试中表现最均衡。

LlamaIndex Blog ·

IBM联合发布首个企业IT运维智能体基准测试，结果显示包括GPT-5.5、Claude Opus 4.7在内的顶尖模型在Kubernetes故障诊断任务中得分均低于50%，揭示了AI在复杂、真实世界企业任务中的巨大挑战。

Hugging Face Blog ·

LlamaIndex 发布首个面向 AI Agent 的 OCR 基准 ParseBench，并展示了其解析工具在结构化文档理解、多模态推理等方面的突破，标志着文档处理正从文本提取走向深层语义理解。

LlamaIndex Blog ·

LlamaIndex 推出首个专为AI Agent设计的文档解析基准ParseBench，并发布了多项深度解析工具和基准测试结果，标志着文档智能进入可量化评估时代。

LlamaIndex Blog ·