合成数据如何造出“又快又准”的多语言OCR模型?
NVIDIA用1200万张合成图像训练出多语言OCR模型Nemotron OCR v2,在六种语言上实现了高精度(NED低至0.035)和高速度(单A100每秒34.7页),证明了合成数据是解决OCR多语言数据瓶颈的关键路径。
Hugging Face Blog · 2026年4月18日
NVIDIA用1200万张合成图像训练出多语言OCR模型Nemotron OCR v2,在六种语言上实现了高精度(NED低至0.035)和高速度(单A100每秒34.7页),证明了合成数据是解决OCR多语言数据瓶颈的关键路径。
文章提出,通过引入“计划-执行-验证”的智能体循环,文档处理正从机械的模式匹配转变为具备空间感知和上下文推理能力的认知任务,从而突破传统OCR的瓶颈。
OCR 准确率并非单一数字,而是一个由图像质量、文档复杂度、评估标准和后处理共同决定的系统工程问题。