Ulysses序列并行性:如何利用百万-token上下文训练大模型 Ulysses序列并行性通过分布式计算解决了大语言模型训练中的长序列问题,显著提升了模型处理百万级token的能力。 Hugging Face Blog · 2026年3月9日
专家混合模型(MoEs)如何重塑Transformer的未来 专家混合模型(MoEs)通过提高计算效率和优化并行处理,正在成为Transformer模型的新趋势,推动了大规模语言模型的发展。 Hugging Face Blog · 2026年2月26日