标签: 合成数据 (4 篇)

智能体落地，为什么总差一步？NVIDIA专家：你缺的是开放数据

NVIDIA专家指出，构建真正可靠的AI智能体，关键在于开放数据和合成数据——前者让行为可解释，后者在不泄露公司秘密的前提下实现规模化训练。

Hugging Face Blog · 2026年7月9日

NVIDIA 提出了任务种子合成数据生成流水线，在预训练中仅用 100B token 便让 Nemotron-3 Nano 在 GPQA 等基准上跃升两位数，揭示了合成数据的新范式。

Hugging Face Blog · 2026年6月4日

NVIDIA 联合韩国机构发布了一个包含600万合成人口的韩国专属数据集，旨在让AI Agent能基于真实人口统计和文化背景进行交互，而非简单套用西方模式。

Hugging Face Blog · 2026年4月21日

NVIDIA用1200万张合成图像训练出多语言OCR模型Nemotron OCR v2，在六种语言上实现了高精度（NED低至0.035）和高速度（单A100每秒34.7页），证明了合成数据是解决OCR多语言数据瓶颈的关键路径。

Hugging Face Blog · 2026年4月18日