小模型,大能耐:IBM开源9700万参数多语言嵌入模型,叫板巨头
IBM发布两款Apache 2.0开源多语言嵌入模型,其中9700万参数的轻量版在多项基准测试中超越了所有同级别模型,展示了“小而精”模型在特定任务上的巨大潜力。
Hugging Face Blog · 2026年5月15日
IBM发布两款Apache 2.0开源多语言嵌入模型,其中9700万参数的轻量版在多项基准测试中超越了所有同级别模型,展示了“小而精”模型在特定任务上的巨大潜力。
NVIDIA用1200万张合成图像训练出多语言OCR模型Nemotron OCR v2,在六种语言上实现了高精度(NED低至0.035)和高速度(单A100每秒34.7页),证明了合成数据是解决OCR多语言数据瓶颈的关键路径。