标签: 模型架构 (6 篇)

超越自回归：英伟达扩散语言模型如何实现“光速”文本生成

英伟达发布新型扩散语言模型，通过并行生成与迭代精炼，有望突破传统自回归模型的延迟瓶颈，并赋予模型自我修正能力。

Hugging Face Blog · 2026年5月23日

艾伦人工智能研究所（AI2）发布EMO模型，通过创新的预训练方法，让混合专家（MoE）模型中的专家模块能按任务独立调用，仅用12.5%的专家即可保持接近完整模型的性能。

Hugging Face Blog · 2026年5月9日

NVIDIA用1200万张合成图像训练出多语言OCR模型Nemotron OCR v2，在六种语言上实现了高精度（NED低至0.035）和高速度（单A100每秒34.7页），证明了合成数据是解决OCR多语言数据瓶颈的关键路径。

Hugging Face Blog · 2026年4月18日

Holotron-12B通过优化推理效率和处理长上下文，成为高性能计算代理的有力工具，这对AI应用的拓展至关重要。

Hugging Face Blog · 2026年3月17日

Lilian Weng探讨了AI模型如何通过模拟人类的思维过程，提高推理能力和决策效果，这为未来的模型设计带来了新思路。

Lilian Weng · 2025年5月1日

混合架构在语义理解和动态上下文追踪上显著优于纯 Transformer，但在逐字复现任务上反而落后，揭示了架构互补的明确分工。

Hugging Face Blog ·