标签: 多语言处理 (2 篇)

小模型，大能耐：IBM开源9700万参数多语言嵌入模型，叫板巨头

IBM发布两款Apache 2.0开源多语言嵌入模型，其中9700万参数的轻量版在多项基准测试中超越了所有同级别模型，展示了“小而精”模型在特定任务上的巨大潜力。

Hugging Face Blog · 2026年5月15日

NVIDIA用1200万张合成图像训练出多语言OCR模型Nemotron OCR v2，在六种语言上实现了高精度（NED低至0.035）和高速度（单A100每秒34.7页），证明了合成数据是解决OCR多语言数据瓶颈的关键路径。

Hugging Face Blog · 2026年4月18日