标签: 开源模型 (13 篇)

Ornith-1.0：当自举微调遇上Agent编程，开源模型又进化了

Simon Willison评测开源模型Ornith-1.0，展示其在Agent任务中高效的工具调用和代码理解能力，揭示开源Agentic Coding模型的新进展。

Simon Willison · 2026年6月30日

智谱发布 GLM-5.2，首次在开源模型上实现稳定 1M 上下文，并在多个长链编码基准上媲美闭源顶级模型。

Hugging Face Blog · 2026年6月17日

Holo3.1 在环境适应性、本地部署和实时速度上实现关键突破，证明通用电脑操控智能体正从展示能力进入可规模落地的工程阶段。

Hugging Face Blog · 2026年6月2日

Hugging Face发布了六个不同尺寸的Ettin重排模型，旨在通过“检索-重排”两阶段架构，以低成本显著提升搜索和RAG系统的准确性。

Hugging Face Blog · 2026年5月19日

IBM发布两款Apache 2.0开源多语言嵌入模型，其中9700万参数的轻量版在多项基准测试中超越了所有同级别模型，展示了“小而精”模型在特定任务上的巨大潜力。

Hugging Face Blog · 2026年5月15日

IBM 发布 Granite 4.1 系列模型，其 8B 密集模型通过极致的数据工程和五阶段训练流程，性能竟可匹敌甚至超越上一代 32B 的 MoE 模型，揭示了“数据质量压倒参数规模”的新范式。

Hugging Face Blog · 2026年4月29日

微软推出MIT许可的Whisper风格语音模型VibeVoice，内置说话人分离功能，可在Mac上本地高效处理长达一小时的音频转录。

Simon Willison · 2026年4月28日

DeepSeek发布V4系列模型，以极低价格（Pro输入$1.74/M，Flash仅$0.14/M）提供接近前沿的性能，可能重塑开源模型的成本效益标准。

Simon Willison · 2026年4月24日

DeepSeek-V4通过创新的混合注意力机制，将百万token上下文窗口的推理成本和内存占用大幅降低，使其首次真正适用于长程、多步骤的AI智能体任务。

Hugging Face Blog · 2026年4月24日

阿里通义千问发布Qwen3.6-27B，一个仅27B参数的稠密模型在编程基准上全面超越上代397B的MoE旗舰模型，标志着高效能本地编程模型的拐点。

Simon Willison · 2026年4月23日

NVIDIA用1200万张合成图像训练出多语言OCR模型Nemotron OCR v2，在六种语言上实现了高精度（NED低至0.035）和高速度（单A100每秒34.7页），证明了合成数据是解决OCR多语言数据瓶颈的关键路径。

Hugging Face Blog · 2026年4月18日

Simon Willison 用其著名的“鹈鹕骑自行车”测试对比了本地运行的阿里Qwen3.6与云端Claude Opus 4.7，发现小模型在创意SVG生成上意外胜出，揭示了开源模型在特定任务上的惊人潜力。

Simon Willison · 2026年4月17日

LangChain的评估显示，GLM-5和MiniMax M2.7等开源模型在核心Agent任务上已能比肩顶尖闭源模型，同时成本降低高达90%，延迟大幅缩短。

LangChain Blog ·