← 返回首页 — Hugging Face Blog — 进阶
研究 · 深度解读 · IMPACT 7/10

NVIDIA 用任务种子合成数据预训练 Nemotron:基准分数全面跃升背后的方法论

原文: Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

NVIDIA 提出了任务种子合成数据生成流水线,在预训练中仅用 100B token 便让 Nemotron-3 Nano 在 GPQA 等基准上跃升两位数,揭示了合成数据的新范式。

核心要点
  • 用公开任务训练集作为“能力种子”,而非简单记忆样本,生成结构化的合成 Q&A 数据
  • 五阶段流水线:种子收集、任务标准化、生成新示例、答案增强与推理注入、质量过滤
  • 100B token 继续预训练实验:GPQA 飙升 +11.1,MMLU-Pro +1.8,代码 +1.9,常识理解 +1.6
  • 证明了少量高质量合成数据就能显著提升预训练模型的多项能力,为训练数据设计提供新思路
深度解读

AI 圈有个心照不宣的事实:高质量的自然语言数据快被大模型学完了。于是合成数据成了新战场,但怎么合成、怎么用得聪明,依然是个难题。NVIDIA 在训练 Nemotron 模型时,就摸索出一套“任务种子合成 Q&A 生成”方法论,最近在 Hugging Face 博客上详细披露。它不是什么惊天动地的新模型发布,却可能悄悄改变你我对合成数据的理解。

起因:当数据不再只是“喂得多”

大模型预训练一度陷入“token 数量竞赛”。但 NVIDIA 团队意识到,核心问题不是模型见过多少字,而是这些字里包含多少“结构化的学习信号”。网页文本、代码、数学题、多语言语料提供了广度,但缺乏一种东西:明确的信息需求、有限的答案空间、以及连接证据与答案的解释链条。这恰恰是问答任务的特质。于是他们想到:能不能把公开任务数据当成“种子”,催生出无数类似的、包含推理和上下文的新问题与新答案?

拆解:一套五步流水线是怎么运转的

这套方法其实就是一种迁移学习的数据增强术。大致分为五个阶段:

  1. 收集任务种子:从 lm-eval-harness 等评测框架里扒出约 70 个公开任务、近 700 个子任务的训练集,里面既有知识密集型(科学、多语言、领域 QA),也有推理密集型(逻辑、数学、代码、常识推理),总共 450 万条种子样本。
  2. 任务标准化:不同任务的数据格式五花八门,先统一成标准结构,方便后续生成。
  3. 生成新示例:让模型以种子任务为蓝本,生成“形似神不似”的新问题。注意,这里不是让模型背下原题,而是学会“出题风格”。
  4. 答案增强与推理注入:生成原始答案还不够,还要加上推理过程、相关上下文,让答案变成带解释的范例。
  5. 质量过滤:多重验证——格式检查、去重、多数投票答案检查,只留下高质量样本。整个过程刻意排除了测试集,防止数据泄漏。

最后,这些生成的数据被混入预训练语料。在 Nemotron-3 Nano 模型上,只用 100B token 的额外训练(大概占原始预训练的很小比例),就带来一系列基准跃升:GPQA(研究生水平 QA)暴增 11.1 个点,MMLU-Pro 提升 1.8,代码平均提升 1.9,常识理解上涨 1.6,数学基本持平。这效果堪比一次精细的微调,但它发生在预训练阶段。

趋势洞察:合成数据正在“前置化”

过去,合成数据多用于指令微调或 RLHF 阶段,比如 Self-Instruct、Alpaca 那一套。但 NVIDIA 的做法把合成数据的使用提前到了预训练甚至继续预训练环节,且不是漫无目的地狂造数据,而是围绕特定能力目标(数理、代码、推理)有策略地植入。这暗示一个更深的趋势:预训练数据的未来不再只是爬虫和清洗,而是“设计”——像课程表一样,为模型的不同成长阶段搭配不同类型的学习材料。任务种子 SDG 可能只是这个趋势的早鸟。

实用价值:小团队也能借鉴的思路

即使你没有万卡集群去训练 Nemotron Ultra,这套流水线的思想也值得偷师。比如,你想让自己的垂类模型在医疗 QA 上变强,完全可以收集一批相关的公开问答题当作种子,用开源模型生成大量类似的问题和带推理的答案,经过清洗后混入继续预训练数据。关键在于“结构化学习信号”的植入,这一点适用于任何规模的模型。

反常识:少即是多

很多人的直觉是,合成数据胜在量,越多越好。但这篇文章的启示恰恰相反:精选过的、面向特定能力的合成数据,用极少的 token 就能撬动巨大的性能提升。100B token 在大模型动辄数万亿的预训练语料中只是冰山一角,却让多个基准成绩全面上扬。这提醒我们,数据工程的核心不是堆料,而是如何把“学习的梯子”搭在模型最容易够到的地方。


原文地址: Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

分析由 BitByAI 生成 · 阅读原文

原文来自 Hugging Face Blog · 由 BitByAI 自动解读