合成数据如何造出“又快又准”的多语言OCR模型? NVIDIA用1200万张合成图像训练出多语言OCR模型Nemotron OCR v2,在六种语言上实现了高精度(NED低至0.035)和高速度(单A100每秒34.7页),证明了合成数据是解决OCR多语言数据瓶颈的关键路径。 Hugging Face Blog · 2026年4月18日