微软MAI模型公开：万亿参数背后的「干净数据」承诺，真相如何？

原文: Microsoft's new MAI models

西蒙·威利森深入分析了微软两款新MAI模型的参数规模和训练数据，表面宣传的「干净授权数据」背后仍是全网爬取，引发对AI训练合规性的深层思考。

大语言模型训练数据模型发布微软编程助手行业趋势

核心要点

MAI-Thinking-1 拥有1万亿参数（35B激活），MAI-Code-1-Flash 为137B参数（5B激活），均采用MoE架构以降低成本。
微软宣传模型使用「干净、商业授权数据」，但技术论文显示训练语料包含大量网络爬取内容，与其他大模型无异。
MAI-Code-1-Flash 已集成至 GitHub Copilot，有望提升个人开发者的编码辅助体验。
事件凸显AI行业在数据版权问题上的矛盾：既要追求高性能，又难以完全合规地获取海量训练数据。

深度解读

事件起因：微软发布两款新模型，但西蒙·威利森发现了宣传与现实的落差

上周微软在 Build 大会上发布了两个新大语言模型——MAI-Thinking-1 和 MAI-Code-1-Flash。前者是一个侧重推理的万亿参数模型（35B活跃参数），后者则是一个专为代码设计的137B模型（5B活跃参数），而且已经被集成到了 GitHub Copilot 中。知名开发者西蒙·威利森第一时间进行了报道，但他很快发现自己被微软的宣传误导了：他最初以为这是两个「小模型」，后来才发现总参数量其实大得多，只是采用了 MoE（混合专家）架构降低了每次推理的活跃参数。更重要的是，微软在新闻稿中特意强调模型训练使用了「干净、商业授权数据」，而技术论文却白纸黑字写着训练语料来自公开网络的爬取。

技术拆解：MoE架构让大模型也能「廉价运行」

要理解这件事的影响，我们得先看懂 MoE 架构。传统大模型推理时，所有参数都会参与计算，导致成本随模型规模线性增长。而 MoE 将模型拆成多个「专家」子网络，每次只激活其中一小部分。所以微软的 MAI-Thinking-1 虽然总参数高达1万亿，但推理时只有 35B 在工作。这就让它在单张消费级 GPU 上也能跑起来，极大降低了使用门槛。西蒙最初把活跃参数当成了总参数，闹了个乌龙，但也从侧面说明，这种「以小博大」的设计确实会让行家都产生误判。

数据之谜：所谓「干净数据」不过是另一种 Web Crawl

微软在新闻稿中写道：「我们从头开始训练 MAI-Thinking-1，使用企业级、干净且获得商业授权的高质量数据，且未从第三方模型蒸馏。」这话听起来就像是 AI 训练数据版权争议的终极答案。但西蒙读完技术论文后发现，事实并非如此。论文第80页详细描述了数据来源：主要语料来自微软自有的网络爬虫，爬取了约1.2万亿个网页，经过过滤后保留7940亿个；同时还处理了 Common Crawl 数据，最终保留了242亿个页面。这与 GPT、Claude 等模型的训练数据来源并无本质区别——都是大规模抓取公开网络内容。所谓的「干净」，主要是指滤除了成人内容和 AI 生成的页面；而「授权」到底指什么，论文并未交代。

趋势洞察：大模型训练数据版权的灰色地带会持续存在

这件事揭示了一个更深层的行业困境：一方面，模型性能的提升越来越依赖于海量、多样化的数据，而互联网上最容易获取的正是未经授权的公开内容；另一方面，立法和舆论对数据版权的约束越来越紧。微软这次的操作，像是在玩文字游戏——「appropriately licensed」这个措辞巧妙地避开了对授权范围的明确界定。这也解释了为什么 MAI-Code-1-Flash 特别强调是为 GitHub Copilot 优化的：Copilot 本身在 GitHub 公开代码上训练，本就存在争议，现在只不过换了个模型而已。可以预见，在真正的数据授权标准落地之前，这种「边爬边用」的模式还会是主流。

实用价值：开发者得到了什么，又需要警惕什么？

对普通开发者来说，MAI-Code-1-Flash 直接集成到 VS Code 中的 GitHub Copilot，意味着代码补全和生成的质量可能进一步提升，尤其是在高并发、低成本要求下。而 MAI-Thinking-1 如果开放给个人使用，将让本地运行顶级推理模型成为可能。但需要警惕的是，如果你所在的企业对代码版权或数据合规性有严格要求，Copilot 的这种数据继承效应可能会带来法律风险。西蒙的另一个关键发现是：这两个模型都没有采用蒸馏技术，这对于担心模型「近亲繁殖」的开发者来说是个好消息。

反常识角度：为什么专家的误判反而值得深思？

整个事件的戏剧性在于，连西蒙这样密切关注 AI 动态的专家，都会被微软的营销话术带偏——先入为主地认为模型很小，而后发现真相。这提醒我们，当巨头用「干净授权数据」「从零训练」等话术包装产品时，技术细节往往藏在论文的第80页。下次看到类似的宣传，不妨先问一句：「你的爬虫爬了谁的网站？」

原文地址: Microsoft's new MAI models

分析由 BitByAI 生成 · 阅读原文

原文来自 Simon Willison · 由 BitByAI 自动解读