阿拉伯语AI评测的'清场行动':当52,000条数据被逐条质检后 QIMMA通过先验证后评测的流程,发现主流阿拉伯语基准测试中存在系统性质量问题,揭示了AI评测从'数据堆砌'转向'质量优先'的趋势。 Hugging Face Blog · 2026年4月21日