← 返回首页 — Simon Willison — 进阶
模型公司 · 深度解读 · IMPACT 7/10

微软MAI模型公开:万亿参数背后的「干净数据」承诺,真相如何?

原文: Microsoft's new MAI models

西蒙·威利森深入分析了微软两款新MAI模型的参数规模和训练数据,表面宣传的「干净授权数据」背后仍是全网爬取,引发对AI训练合规性的深层思考。

核心要点
  • MAI-Thinking-1 拥有1万亿参数(35B激活),MAI-Code-1-Flash 为137B参数(5B激活),均采用MoE架构以降低成本。
  • 微软宣传模型使用「干净、商业授权数据」,但技术论文显示训练语料包含大量网络爬取内容,与其他大模型无异。
  • MAI-Code-1-Flash 已集成至 GitHub Copilot,有望提升个人开发者的编码辅助体验。
  • 事件凸显AI行业在数据版权问题上的矛盾:既要追求高性能,又难以完全合规地获取海量训练数据。
深度解读

事件起因:微软发布两款新模型,但西蒙·威利森发现了宣传与现实的落差

上周微软在 Build 大会上发布了两个新大语言模型——MAI-Thinking-1 和 MAI-Code-1-Flash。前者是一个侧重推理的万亿参数模型(35B活跃参数),后者则是一个专为代码设计的137B模型(5B活跃参数),而且已经被集成到了 GitHub Copilot 中。知名开发者西蒙·威利森第一时间进行了报道,但他很快发现自己被微软的宣传误导了:他最初以为这是两个「小模型」,后来才发现总参数量其实大得多,只是采用了 MoE(混合专家)架构降低了每次推理的活跃参数。更重要的是,微软在新闻稿中特意强调模型训练使用了「干净、商业授权数据」,而技术论文却白纸黑字写着训练语料来自公开网络的爬取。

技术拆解:MoE架构让大模型也能「廉价运行」

要理解这件事的影响,我们得先看懂 MoE 架构。传统大模型推理时,所有参数都会参与计算,导致成本随模型规模线性增长。而 MoE 将模型拆成多个「专家」子网络,每次只激活其中一小部分。所以微软的 MAI-Thinking-1 虽然总参数高达1万亿,但推理时只有 35B 在工作。这就让它在单张消费级 GPU 上也能跑起来,极大降低了使用门槛。西蒙最初把活跃参数当成了总参数,闹了个乌龙,但也从侧面说明,这种「以小博大」的设计确实会让行家都产生误判。

数据之谜:所谓「干净数据」不过是另一种 Web Crawl

微软在新闻稿中写道:「我们从头开始训练 MAI-Thinking-1,使用企业级、干净且获得商业授权的高质量数据,且未从第三方模型蒸馏。」这话听起来就像是 AI 训练数据版权争议的终极答案。但西蒙读完技术论文后发现,事实并非如此。论文第80页详细描述了数据来源:主要语料来自微软自有的网络爬虫,爬取了约1.2万亿个网页,经过过滤后保留7940亿个;同时还处理了 Common Crawl 数据,最终保留了242亿个页面。这与 GPT、Claude 等模型的训练数据来源并无本质区别——都是大规模抓取公开网络内容。所谓的「干净」,主要是指滤除了成人内容和 AI 生成的页面;而「授权」到底指什么,论文并未交代。

趋势洞察:大模型训练数据版权的灰色地带会持续存在

这件事揭示了一个更深层的行业困境:一方面,模型性能的提升越来越依赖于海量、多样化的数据,而互联网上最容易获取的正是未经授权的公开内容;另一方面,立法和舆论对数据版权的约束越来越紧。微软这次的操作,像是在玩文字游戏——「appropriately licensed」这个措辞巧妙地避开了对授权范围的明确界定。这也解释了为什么 MAI-Code-1-Flash 特别强调是为 GitHub Copilot 优化的:Copilot 本身在 GitHub 公开代码上训练,本就存在争议,现在只不过换了个模型而已。可以预见,在真正的数据授权标准落地之前,这种「边爬边用」的模式还会是主流。

实用价值:开发者得到了什么,又需要警惕什么?

对普通开发者来说,MAI-Code-1-Flash 直接集成到 VS Code 中的 GitHub Copilot,意味着代码补全和生成的质量可能进一步提升,尤其是在高并发、低成本要求下。而 MAI-Thinking-1 如果开放给个人使用,将让本地运行顶级推理模型成为可能。但需要警惕的是,如果你所在的企业对代码版权或数据合规性有严格要求,Copilot 的这种数据继承效应可能会带来法律风险。西蒙的另一个关键发现是:这两个模型都没有采用蒸馏技术,这对于担心模型「近亲繁殖」的开发者来说是个好消息。

反常识角度:为什么专家的误判反而值得深思?

整个事件的戏剧性在于,连西蒙这样密切关注 AI 动态的专家,都会被微软的营销话术带偏——先入为主地认为模型很小,而后发现真相。这提醒我们,当巨头用「干净授权数据」「从零训练」等话术包装产品时,技术细节往往藏在论文的第80页。下次看到类似的宣传,不妨先问一句:「你的爬虫爬了谁的网站?」


原文地址: Microsoft's new MAI models

分析由 BitByAI 生成 · 阅读原文

原文来自 Simon Willison · 由 BitByAI 自动解读