30B参数、3B激活：Cohere 用 MoE 架构杀入开源代码模型竞争

原文: Introducing North Mini Code: Cohere’s First Model For Developers

Cohere 发布首款面向开发者的开源模型 North Mini Code，以 30B 参数、3B 激活的 MoE 设计，在代理式编程任务上表现出色，挑战同类最优。

代码模型开源 Cohere 混合专家模型 AI编程

核心要点

30B总参数、3B活跃参数的混合专家架构，推理高效。
专为代理式软件工程任务训练，使用多个 scaffold 和 RLVR 强化学习。
开源（Apache 2.0），可在 OpenCode 等平台直接试用。
在代码生成基准上优于 Qwen3.5、Gemma 4 等更大模型。

深度解读

本周，Cohere 安静地投下了一枚重磅炸弹：发布 North Mini Code，这是其 North 系列的首个模型，一个 30B 参数、仅 3B 激活的混合专家（MoE）模型，专门为开发者打造，开源并以 Apache 2.0 协议发布。在 AI 编程助手和代码代理日益拥挤的赛道里，Cohere 的选择透露出不少值得注意的信号。

为什么是 MoE？用聪明的方式省算力

North Mini Code 不是传统的稠密模型。它拥有 30B 总参数，但每次推理只激活 3B（8 个专家）。这种设计的直接好处是：在保持强大表达能力的同时，极大地降低了推理延迟和计算成本。对于嵌入 IDE 或作为代码代理后端的模型，响应速度就是生命线。Cohere 显然瞄准了终端部署和实时辅助场景，希望以“小开销”换取“大智能”。

该模型的注意力机制也做了特殊设计：交错使用滑动窗口注意力和全局注意力，比例 3:1，既捕捉局部代码结构，又不丢失长距离依赖。MoE 模块包含 128 个专家，使用 sigmoid 激活的门控机制来选择 top-8 专家，保持了训练和推理的稳定性。

训练哲学：不为单一分数而生，为真实代理任务而练

普通代码模型常被诟病“刷榜厉害，实战拉胯”。Cohere 采取了截然不同的后训练策略：他们不在单个基准上反复调优，而是使用多个 agent scaffold 进行监督微调（SFT），随后引入基于可验证奖励的强化学习（RLVR）。这个 RLVR 阶段专门针对软件工程流程和终端操作，奖励信号来自可直接验证的任务结果，比如代码能否通过测试、终端命令是否成功执行。

结果就是，该模型在 Artificial Analysis 的 Coding Index 中获得 33.4 分，超越了同等甚至更大规模的一众开源模型，包括 Qwen3.5 (35B)、Gemma 4 (26B) 和 Devstral Small 2 (24B)。对一个 3B 激活的模型来说，这是一个鲜明的信号：做好任务对齐，比盲目扩大规模更有效。

Cohere 的战略转身：从企业 API 到开发者生态

这并非 Cohere 第一次发布模型，但却是第一次如此明确地瞄准开发者社区。过去，Cohere 以企业级 API 服务著称，而这次开源首款“代码代理模型”，意在拉拢个人开发者和中小团队。通过 Hugging Face 开源，配合可在 OpenCode 中直接试用的入口，Cohere 试图构建一个围绕自己模型的代理开发社区。

这也折射出更大的行业趋势：企业 AI 公司意识到，开发者生态才是模型扩散和反馈的加速器。谁能让开发者在日常工作中顺手用上自己的模型，谁就在下一轮工程化浪潮中占据先机。而开源的 MoE 路线，正好同时满足开发者对性能和可负担性的双重需求。

对开发者意味着什么？

如果你正在寻找一个可以本地运行、还能高效驱动代码代理的开源模型，North Mini Code 值得放进候选名单。它可以作为 VS Code 插件后端，也可以集成到自建的 CI 管道中做自动代码审查，甚至作为 GPT-4 的平价替代品在内部工具中使用。当然，它目前主要针对 Python 和通用终端任务，更多语言的支持还有待观察。

不过，最大的启示或许是：模型战争的下半场，不再是比拼参数纸面数据，而是看谁能造出“刚好够用、快人一步”的工具，并让它落到最需要的开发者手里。Cohere 这步棋，下得精准而安静。

原文地址: Introducing North Mini Code: Cohere’s First Model For Developers

分析由 BitByAI 生成 · 阅读原文

原文来自 Hugging Face Blog · 由 BitByAI 自动解读