NVIDIA 用任务种子合成数据预训练 Nemotron:基准分数全面跃升背后的方法论
NVIDIA 提出了任务种子合成数据生成流水线,在预训练中仅用 100B token 便让 Nemotron-3 Nano 在 GPQA 等基准上跃升两位数,揭示了合成数据的新范式。
Hugging Face Blog · 2026年6月4日
NVIDIA 提出了任务种子合成数据生成流水线,在预训练中仅用 100B token 便让 Nemotron-3 Nano 在 GPQA 等基准上跃升两位数,揭示了合成数据的新范式。
NVIDIA 联合韩国机构发布了一个包含600万合成人口的韩国专属数据集,旨在让AI Agent能基于真实人口统计和文化背景进行交互,而非简单套用西方模式。
NVIDIA用1200万张合成图像训练出多语言OCR模型Nemotron OCR v2,在六种语言上实现了高精度(NED低至0.035)和高速度(单A100每秒34.7页),证明了合成数据是解决OCR多语言数据瓶颈的关键路径。