NVIDIA 用任务种子合成数据预训练 Nemotron：基准分数全面跃升背后的方法论

原文: Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

NVIDIA 提出了任务种子合成数据生成流水线，在预训练中仅用 100B token 便让 Nemotron-3 Nano 在 GPQA 等基准上跃升两位数，揭示了合成数据的新范式。

合成数据大语言模型预训练数据处理 NVIDIA

核心要点

用公开任务训练集作为“能力种子”，而非简单记忆样本，生成结构化的合成 Q&A 数据
五阶段流水线：种子收集、任务标准化、生成新示例、答案增强与推理注入、质量过滤
100B token 继续预训练实验：GPQA 飙升 +11.1，MMLU-Pro +1.8，代码 +1.9，常识理解 +1.6
证明了少量高质量合成数据就能显著提升预训练模型的多项能力，为训练数据设计提供新思路

深度解读

AI 圈有个心照不宣的事实：高质量的自然语言数据快被大模型学完了。于是合成数据成了新战场，但怎么合成、怎么用得聪明，依然是个难题。NVIDIA 在训练 Nemotron 模型时，就摸索出一套“任务种子合成 Q&A 生成”方法论，最近在 Hugging Face 博客上详细披露。它不是什么惊天动地的新模型发布，却可能悄悄改变你我对合成数据的理解。

起因：当数据不再只是“喂得多”

大模型预训练一度陷入“token 数量竞赛”。但 NVIDIA 团队意识到，核心问题不是模型见过多少字，而是这些字里包含多少“结构化的学习信号”。网页文本、代码、数学题、多语言语料提供了广度，但缺乏一种东西：明确的信息需求、有限的答案空间、以及连接证据与答案的解释链条。这恰恰是问答任务的特质。于是他们想到：能不能把公开任务数据当成“种子”，催生出无数类似的、包含推理和上下文的新问题与新答案？

拆解：一套五步流水线是怎么运转的

这套方法其实就是一种迁移学习的数据增强术。大致分为五个阶段：

收集任务种子：从 lm-eval-harness 等评测框架里扒出约 70 个公开任务、近 700 个子任务的训练集，里面既有知识密集型（科学、多语言、领域 QA），也有推理密集型（逻辑、数学、代码、常识推理），总共 450 万条种子样本。
任务标准化：不同任务的数据格式五花八门，先统一成标准结构，方便后续生成。
生成新示例：让模型以种子任务为蓝本，生成“形似神不似”的新问题。注意，这里不是让模型背下原题，而是学会“出题风格”。
答案增强与推理注入：生成原始答案还不够，还要加上推理过程、相关上下文，让答案变成带解释的范例。
质量过滤：多重验证——格式检查、去重、多数投票答案检查，只留下高质量样本。整个过程刻意排除了测试集，防止数据泄漏。

最后，这些生成的数据被混入预训练语料。在 Nemotron-3 Nano 模型上，只用 100B token 的额外训练（大概占原始预训练的很小比例），就带来一系列基准跃升：GPQA（研究生水平 QA）暴增 11.1 个点，MMLU-Pro 提升 1.8，代码平均提升 1.9，常识理解上涨 1.6，数学基本持平。这效果堪比一次精细的微调，但它发生在预训练阶段。

趋势洞察：合成数据正在“前置化”

过去，合成数据多用于指令微调或 RLHF 阶段，比如 Self-Instruct、Alpaca 那一套。但 NVIDIA 的做法把合成数据的使用提前到了预训练甚至继续预训练环节，且不是漫无目的地狂造数据，而是围绕特定能力目标（数理、代码、推理）有策略地植入。这暗示一个更深的趋势：预训练数据的未来不再只是爬虫和清洗，而是“设计”——像课程表一样，为模型的不同成长阶段搭配不同类型的学习材料。任务种子 SDG 可能只是这个趋势的早鸟。

实用价值：小团队也能借鉴的思路

即使你没有万卡集群去训练 Nemotron Ultra，这套流水线的思想也值得偷师。比如，你想让自己的垂类模型在医疗 QA 上变强，完全可以收集一批相关的公开问答题当作种子，用开源模型生成大量类似的问题和带推理的答案，经过清洗后混入继续预训练数据。关键在于“结构化学习信号”的植入，这一点适用于任何规模的模型。

反常识：少即是多

很多人的直觉是，合成数据胜在量，越多越好。但这篇文章的启示恰恰相反：精选过的、面向特定能力的合成数据，用极少的 token 就能撬动巨大的性能提升。100B token 在大模型动辄数万亿的预训练语料中只是冰山一角，却让多个基准成绩全面上扬。这提醒我们，数据工程的核心不是堆料，而是如何把“学习的梯子”搭在模型最容易够到的地方。

原文地址: Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

分析由 BitByAI 生成 · 阅读原文

原文来自 Hugging Face Blog · 由 BitByAI 自动解读