评估成本超越训练：AI竞赛的隐性瓶颈正在转移

原文: AI evals are becoming the new compute bottleneck

AI评估成本正急剧攀升，单个智能体基准测试花费可达数万美元，其复杂性使其难以压缩，正成为限制AI研发的新计算瓶颈。

AI评估智能体成本分析基准测试开发流程

核心要点

评估成本已成规模：运行一次前沿模型的GAIA基准测试花费超2800美元，大型智能体排行榜（HAL）的评估花费高达4万美元。
从静态到动态的转变：静态LLM基准测试可通过子采样大幅压缩成本（100-200倍），但智能体评估因结果噪声大、对脚手架敏感而难以压缩。
评估成为开发周期中的主要成本：对于小型模型或频繁的检查点评估，评估成本甚至可能超过预训练成本。
成本驱动因素分化：框架/脚手架的选择是智能体任务成本的主要驱动因素，相同任务的成本差异可达33倍。

深度解读

起因：为什么现在要聊评估的成本？

长期以来，AI领域的焦点集中在模型训练的算力成本上——买GPU、优化分布式训练、降低推理延迟。但一个更隐蔽、却日益凸显的瓶颈正在浮现：评估（Evals）的成本。Hugging Face这篇博文用一系列触目惊心的数字揭示了这一趋势：运行一次前沿模型在GAIA智能体基准上的测试，花费就可能超过2800美元；而一个名为HAL（Holistic Agent Leaderboard）的项目，为了在9个模型和9个基准上运行2万多轮智能体测试，花了大约4万美元。这不再是小打小闹，评估本身正在变成一项昂贵的“奢侈品”，它改变了谁能参与AI前沿研究的游戏规则。

拆解：成本从何而来？为何智能体评估尤其昂贵？

评估成本问题并非始于智能体。早在2022年，斯坦福的HELM基准对30个模型进行一次全面评估，总成本就达到了约10万美元（包括API费用和GPU小时）。更关键的是，像EleutherAI的Pythia模型系列，为了研究训练动态而发布了数千个检查点。对所有检查点进行评估，其累积成本“甚至可能超过预训练本身”。这意味着，评估不再是一次性的开销，而是贯穿整个开发周期的持续成本乘数。

过去，对于静态的LLM基准（如MMLU），研究者找到了一个巧妙的“作弊码”：压缩。通过项目反应理论等方法，可以将数万道题的测试集压缩到几百甚至几十个“锚点”题目，同时保持模型排名基本不变。这是因为模型之间的差异往往集中在一小部分题目上。这带来了100倍到200倍的成本节约。

然而，当评估对象从静态的文本预测转向动态的AI智能体时，这个“作弊码”失灵了。智能体评估是“混乱的”：结果噪声大，对智能体所使用的框架/脚手架（Scaffold）极度敏感，并且只有部分可压缩。Exgentic公司的一个实验发现，在完全相同的任务上，仅仅改变智能体的配置框架，成本差异就高达33倍。这意味着，框架选择本身成了成本的一个一级驱动因素。此外，为了获得可靠的结果（统计显著性），往往需要多次重复运行，这进一步将成本成倍放大。

趋势洞察：评估瓶颈揭示了AI研发范式的深层转变

从“训练为王”到“评估为王”的权责转移。过去，拥有海量算力是进入AI竞赛的门票。现在，持续、全面、可靠的评估能力，正成为新的护城河。能负担得起频繁、大规模评估的团队，才能在模型迭代和智能体开发中占据信息优势。这可能导致AI研发资源进一步向头部机构集中。
评估本身正在成为一门复杂的工程和科学。它不再只是跑一个脚本出个分数。如何设计成本可控、结果可靠、且能反映真实世界复杂性的评估流程？如何管理评估的“成本-收益”比？这催生了新的专业领域，比如“评估运营”（Evals Ops）。
智能体的评估困境反映了其本质的复杂性。评估一个智能体，不仅仅是测试其“知识”，更是测试其在动态环境中规划、使用工具、从错误中恢复的综合能力。这种能力的评估天然就是昂贵且充满变数的。评估的瓶颈，实质上是我们对如何定义和衡量“通用智能体能力”这一问题尚无简单答案的体现。

实用价值：这对从业者意味着什么？

对于AI开发者和团队负责人而言，这篇文章是一个重要的提醒：

预算规划：在启动一个模型或智能体项目时，必须将评估成本作为独立且重要的一项纳入预算和计算资源规划，而不能仅仅考虑训练和推理。
技术选型：在选择智能体框架或工具链时，除了功能，其评估效率（即达到同等评估效果所需的成本）应成为一个关键的考量维度。那个33倍的成本差异警示我们，框架的选择直接影响研发的“燃料费”。
策略优化：借鉴静态基准的“由粗到精”思路（如Flash-HELM），可以设计分层的评估策略：先用低成本、大规模的筛选评估快速排除劣质选项，再对少数有潜力的候选者进行高成本、高保真的深度评估。这是一种务实的成本控制方法。

反常识/意外

一个可能被忽视的角度是：评估成本的飙升，可能会反过来制约模型能力的“军备竞赛”。如果评估一个极其庞大、复杂的模型变得过于昂贵，以至于只有极少数公司能经常性地进行，那么整个社区验证和迭代这类模型的能力就会下降。这可能会在一定程度上减缓超大模型的开放研究步伐，或者迫使研究界去寻找全新的、更高效的评估范式，而不仅仅是压缩现有基准。评估，这个曾经的“下游”环节，正以一种意想不到的方式，塑造着AI研发的前沿边界。

原文地址: AI evals are becoming the new compute bottleneck

分析由 BitByAI 生成 · 阅读原文

原文来自 Hugging Face Blog · 由 BitByAI 自动解读