← 返回首页

评估成本超越训练:AI竞赛的隐性瓶颈正在转移

原文: AI evals are becoming the new compute bottleneck

Hugging Face Blog 工具链 进阶 影响力: 7/10

AI评估成本正急剧攀升,单个智能体基准测试花费可达数万美元,其复杂性使其难以压缩,正成为限制AI研发的新计算瓶颈。

核心要点

  • 评估成本已成规模:运行一次前沿模型的GAIA基准测试花费超2800美元,大型智能体排行榜(HAL)的评估花费高达4万美元。
  • 从静态到动态的转变:静态LLM基准测试可通过子采样大幅压缩成本(100-200倍),但智能体评估因结果噪声大、对脚手架敏感而难以压缩。
  • 评估成为开发周期中的主要成本:对于小型模型或频繁的检查点评估,评估成本甚至可能超过预训练成本。
  • 成本驱动因素分化:框架/脚手架的选择是智能体任务成本的主要驱动因素,相同任务的成本差异可达33倍。

深度解读

起因:为什么现在要聊评估的成本?

长期以来,AI领域的焦点集中在模型训练的算力成本上——买GPU、优化分布式训练、降低推理延迟。但一个更隐蔽、却日益凸显的瓶颈正在浮现:评估(Evals)的成本。Hugging Face这篇博文用一系列触目惊心的数字揭示了这一趋势:运行一次前沿模型在GAIA智能体基准上的测试,花费就可能超过2800美元;而一个名为HAL(Holistic Agent Leaderboard)的项目,为了在9个模型和9个基准上运行2万多轮智能体测试,花了大约4万美元。这不再是小打小闹,评估本身正在变成一项昂贵的“奢侈品”,它改变了谁能参与AI前沿研究的游戏规则。

拆解:成本从何而来?为何智能体评估尤其昂贵?

评估成本问题并非始于智能体。早在2022年,斯坦福的HELM基准对30个模型进行一次全面评估,总成本就达到了约10万美元(包括API费用和GPU小时)。更关键的是,像EleutherAI的Pythia模型系列,为了研究训练动态而发布了数千个检查点。对所有检查点进行评估,其累积成本“甚至可能超过预训练本身”。这意味着,评估不再是一次性的开销,而是贯穿整个开发周期的持续成本乘数

过去,对于静态的LLM基准(如MMLU),研究者找到了一个巧妙的“作弊码”:压缩。通过项目反应理论等方法,可以将数万道题的测试集压缩到几百甚至几十个“锚点”题目,同时保持模型排名基本不变。这是因为模型之间的差异往往集中在一小部分题目上。这带来了100倍到200倍的成本节约。

然而,当评估对象从静态的文本预测转向动态的AI智能体时,这个“作弊码”失灵了。智能体评估是“混乱的”:结果噪声大,对智能体所使用的框架/脚手架(Scaffold)极度敏感,并且只有部分可压缩。Exgentic公司的一个实验发现,在完全相同的任务上,仅仅改变智能体的配置框架,成本差异就高达33倍。这意味着,框架选择本身成了成本的一个一级驱动因素。此外,为了获得可靠的结果(统计显著性),往往需要多次重复运行,这进一步将成本成倍放大。

趋势洞察:评估瓶颈揭示了AI研发范式的深层转变

  1. 从“训练为王”到“评估为王”的权责转移。过去,拥有海量算力是进入AI竞赛的门票。现在,持续、全面、可靠的评估能力,正成为新的护城河。能负担得起频繁、大规模评估的团队,才能在模型迭代和智能体开发中占据信息优势。这可能导致AI研发资源进一步向头部机构集中。
  2. 评估本身正在成为一门复杂的工程和科学。它不再只是跑一个脚本出个分数。如何设计成本可控、结果可靠、且能反映真实世界复杂性的评估流程?如何管理评估的“成本-收益”比?这催生了新的专业领域,比如“评估运营”(Evals Ops)。
  3. 智能体的评估困境反映了其本质的复杂性。评估一个智能体,不仅仅是测试其“知识”,更是测试其在动态环境中规划、使用工具、从错误中恢复的综合能力。这种能力的评估天然就是昂贵且充满变数的。评估的瓶颈,实质上是我们对如何定义和衡量“通用智能体能力”这一问题尚无简单答案的体现。

实用价值:这对从业者意味着什么?

对于AI开发者和团队负责人而言,这篇文章是一个重要的提醒:

  • 预算规划:在启动一个模型或智能体项目时,必须将评估成本作为独立且重要的一项纳入预算和计算资源规划,而不能仅仅考虑训练和推理。
  • 技术选型:在选择智能体框架或工具链时,除了功能,其评估效率(即达到同等评估效果所需的成本)应成为一个关键的考量维度。那个33倍的成本差异警示我们,框架的选择直接影响研发的“燃料费”。
  • 策略优化:借鉴静态基准的“由粗到精”思路(如Flash-HELM),可以设计分层的评估策略:先用低成本、大规模的筛选评估快速排除劣质选项,再对少数有潜力的候选者进行高成本、高保真的深度评估。这是一种务实的成本控制方法。

反常识/意外

一个可能被忽视的角度是:评估成本的飙升,可能会反过来制约模型能力的“军备竞赛”。如果评估一个极其庞大、复杂的模型变得过于昂贵,以至于只有极少数公司能经常性地进行,那么整个社区验证和迭代这类模型的能力就会下降。这可能会在一定程度上减缓超大模型的开放研究步伐,或者迫使研究界去寻找全新的、更高效的评估范式,而不仅仅是压缩现有基准。评估,这个曾经的“下游”环节,正以一种意想不到的方式,塑造着AI研发的前沿边界。


原文地址: AI evals are becoming the new compute bottleneck

BitByAI — 由 AI 驱动、AI 进化的 AI 资讯站