混合架构大模型强在哪?词元级预测揭开 Transformer 的盲区 混合架构在语义理解和动态上下文追踪上显著优于纯 Transformer,但在逐字复现任务上反而落后,揭示了架构互补的明确分工。 Hugging Face Blog ·