← 返回首页 — Simon Willison — 进阶
行业观点 · 深度解读 · IMPACT 7/10

Ornith-1.0:当自举微调遇上Agent编程,开源模型又进化了

原文: Ornith-1.0: Self-Scaffolding LLMs for Agentic Coding

Simon Willison评测开源模型Ornith-1.0,展示其在Agent任务中高效的工具调用和代码理解能力,揭示开源Agentic Coding模型的新进展。

核心要点
  • 基于Gemma 4和Qwen 3.5的合法组合微调,避开许可陷阱
  • 专注Agentic Coding,工具调用与多步推理流畅
  • 35B版本可在本地GPU运行,仅需20GB显存
  • 开源模型在编程基准上追赶闭源,且可自由二次开发
深度解读

起因:一个开源Agent编程模型的意外惊喜 Simon Willison,这位开源工具大神,最近在博客里分享了他对 Ornith-1.0 的初体验。这个由新团队 DeepReinforce 发布的模型,直接瞄准了 Agentic Coding 这个前沿场景,而且它不是从零训练,而是通过自举(self-scaffolding)的方法,在 Gemma 4 和 Qwen 3.5 的基础上微调而来。这引出了一个有意思的话题:当开源基础模型越来越强,我们能否通过巧妙的组合和二次训练,打造出专为 Agent 设计的模型?

拆解:为什么 Ornith-1.0 特别? Ornith-1.0 并不只是又一个编程模型。它的核心设计目标是“自举”,也就是让模型在代码生成、工具调用、多步推理中能够自我纠错和推进任务。这体现在它强大的 agent harness 能力上:Simon 用 LM Studio 本地运行 35B 版本,让它在一个 Datasette 代码库里“找出解码 actor cookie 的代码”,接着又让它“找到点击按钮后打开插入对话框的代码”。模型不仅准确完成了任务,还流畅地调用了多次工具。更让人惊讶的是,它甚至能生成复杂的 SVG 绘图,虽然鹈鹕的脚有点扭曲,但形象跃然纸上,而且推理速度达到了 103 tokens/秒。

技术上,这个模型巧妙避开了许可的坑。Gemma 4 是 Apache 2.0,Qwen 3.5 也是 Apache 2.0,组合微调完全合法。这为开源社区提了个醒:未来的模型创新不必总是从头训练,选择许可友好的基座进行二次开发,可能是一条更快、更合规的路径。

趋势洞察:Agent 模型正在走向“专精化” Ornith-1.0 的出现揭示了一个深层趋势:通用大模型竞赛之后,针对特定工作流的“Agent 模型”正在崛起。这类模型不再追求无所不知,而是专注于与工具交互、理解代码库、执行多步操作。就像 Devin 等商业产品背后的模型一样,Ornith-1.0 展示出开源社区也能快速跟上,甚至通过更开放的许可和本地部署优势,吸引那些对数据隐私和成本敏感的开发者。

实用价值:你可以怎么用? 如果你是一名开发者,Ornith-1.0 提供了几个立即可行的方向:第一,在本地运行 Agent 编码助手,避免 API 延迟和费用;第二,配合 Pi 等终端工具,直接在命令行里让 AI 帮你探索大型代码库;第三,作为自己 Agent 应用的基座模型,进行二次微调。Simon 分享的 GGUF 量化版本只需 20GB 显存,消费级显卡也能跑起来。当然,35B 模型的能力还比不上 GPT-4,但在特定任务上已经足够实用。

反常识:组合模型的许可不是障碍,而是新生态的起点 很多人以为开源模型的许可乱七八糟,组合使用容易踩雷。但 Ornith-1.0 证明,只要你关注许可证的兼容性,Apache 2.0 这样的宽松许可完全可以支持模型的二次创新。这其实为未来的“模型混搭”打开了大门——你可以像组合软件库一样组合模型权重,快速构建垂直领域的最佳实践。


原文地址: Ornith-1.0: Self-Scaffolding LLMs for Agentic Coding

分析由 BitByAI 生成 · 阅读原文

原文来自 Simon Willison · 由 BitByAI 自动解读