← 返回首页 — Hugging Face Blog — 进阶
模型公司 · 深度解读 · IMPACT 7/10

30B参数、3B激活:Cohere 用 MoE 架构杀入开源代码模型竞争

原文: Introducing North Mini Code: Cohere’s First Model For Developers

Cohere 发布首款面向开发者的开源模型 North Mini Code,以 30B 参数、3B 激活的 MoE 设计,在代理式编程任务上表现出色,挑战同类最优。

核心要点
  • 30B总参数、3B活跃参数的混合专家架构,推理高效。
  • 专为代理式软件工程任务训练,使用多个 scaffold 和 RLVR 强化学习。
  • 开源(Apache 2.0),可在 OpenCode 等平台直接试用。
  • 在代码生成基准上优于 Qwen3.5、Gemma 4 等更大模型。
深度解读

本周,Cohere 安静地投下了一枚重磅炸弹:发布 North Mini Code,这是其 North 系列的首个模型,一个 30B 参数、仅 3B 激活的混合专家(MoE)模型,专门为开发者打造,开源并以 Apache 2.0 协议发布。在 AI 编程助手和代码代理日益拥挤的赛道里,Cohere 的选择透露出不少值得注意的信号。

为什么是 MoE?用聪明的方式省算力

North Mini Code 不是传统的稠密模型。它拥有 30B 总参数,但每次推理只激活 3B(8 个专家)。这种设计的直接好处是:在保持强大表达能力的同时,极大地降低了推理延迟和计算成本。对于嵌入 IDE 或作为代码代理后端的模型,响应速度就是生命线。Cohere 显然瞄准了终端部署和实时辅助场景,希望以“小开销”换取“大智能”。

该模型的注意力机制也做了特殊设计:交错使用滑动窗口注意力和全局注意力,比例 3:1,既捕捉局部代码结构,又不丢失长距离依赖。MoE 模块包含 128 个专家,使用 sigmoid 激活的门控机制来选择 top-8 专家,保持了训练和推理的稳定性。

训练哲学:不为单一分数而生,为真实代理任务而练

普通代码模型常被诟病“刷榜厉害,实战拉胯”。Cohere 采取了截然不同的后训练策略:他们不在单个基准上反复调优,而是使用多个 agent scaffold 进行监督微调(SFT),随后引入基于可验证奖励的强化学习(RLVR)。这个 RLVR 阶段专门针对软件工程流程和终端操作,奖励信号来自可直接验证的任务结果,比如代码能否通过测试、终端命令是否成功执行。

结果就是,该模型在 Artificial Analysis 的 Coding Index 中获得 33.4 分,超越了同等甚至更大规模的一众开源模型,包括 Qwen3.5 (35B)、Gemma 4 (26B) 和 Devstral Small 2 (24B)。对一个 3B 激活的模型来说,这是一个鲜明的信号:做好任务对齐,比盲目扩大规模更有效。

Cohere 的战略转身:从企业 API 到开发者生态

这并非 Cohere 第一次发布模型,但却是第一次如此明确地瞄准开发者社区。过去,Cohere 以企业级 API 服务著称,而这次开源首款“代码代理模型”,意在拉拢个人开发者和中小团队。通过 Hugging Face 开源,配合可在 OpenCode 中直接试用的入口,Cohere 试图构建一个围绕自己模型的代理开发社区。

这也折射出更大的行业趋势:企业 AI 公司意识到,开发者生态才是模型扩散和反馈的加速器。谁能让开发者在日常工作中顺手用上自己的模型,谁就在下一轮工程化浪潮中占据先机。而开源的 MoE 路线,正好同时满足开发者对性能和可负担性的双重需求。

对开发者意味着什么?

如果你正在寻找一个可以本地运行、还能高效驱动代码代理的开源模型,North Mini Code 值得放进候选名单。它可以作为 VS Code 插件后端,也可以集成到自建的 CI 管道中做自动代码审查,甚至作为 GPT-4 的平价替代品在内部工具中使用。当然,它目前主要针对 Python 和通用终端任务,更多语言的支持还有待观察。

不过,最大的启示或许是:模型战争的下半场,不再是比拼参数纸面数据,而是看谁能造出“刚好够用、快人一步”的工具,并让它落到最需要的开发者手里。Cohere 这步棋,下得精准而安静。


原文地址: Introducing North Mini Code: Cohere’s First Model For Developers

分析由 BitByAI 生成 · 阅读原文

原文来自 Hugging Face Blog · 由 BitByAI 自动解读