Hugging Face发布Ettin重排模型家族:小模型如何撬动大搜索?
Hugging Face发布了六个不同尺寸的Ettin重排模型,旨在通过“检索-重排”两阶段架构,以低成本显著提升搜索和RAG系统的准确性。
Hugging Face发布了六个不同尺寸的Ettin重排模型,旨在通过“检索-重排”两阶段架构,以低成本显著提升搜索和RAG系统的准确性。
IBM发布两款Apache 2.0开源多语言嵌入模型,其中9700万参数的轻量版在多项基准测试中超越了所有同级别模型,展示了“小而精”模型在特定任务上的巨大潜力。
IBM 发布 Granite 4.1 系列模型,其 8B 密集模型通过极致的数据工程和五阶段训练流程,性能竟可匹敌甚至超越上一代 32B 的 MoE 模型,揭示了“数据质量压倒参数规模”的新范式。
NVIDIA发布Nemotron 3 Nano Omni模型,以混合Mamba-Transformer架构实现文档、音视频的长上下文多模态理解,在多个基准测试中领先,为AI Agent处理复杂现实任务提供了高效新选择。
微软推出MIT许可的Whisper风格语音模型VibeVoice,内置说话人分离功能,可在Mac上本地高效处理长达一小时的音频转录。
DeepSeek发布V4系列模型,以极低价格(Pro输入$1.74/M,Flash仅$0.14/M)提供接近前沿的性能,可能重塑开源模型的成本效益标准。
DeepSeek-V4通过创新的混合注意力机制,将百万token上下文窗口的推理成本和内存占用大幅降低,使其首次真正适用于长程、多步骤的AI智能体任务。
阿里通义千问发布Qwen3.6-27B,一个仅27B参数的稠密模型在编程基准上全面超越上代397B的MoE旗舰模型,标志着高效能本地编程模型的拐点。
NVIDIA用1200万张合成图像训练出多语言OCR模型Nemotron OCR v2,在六种语言上实现了高精度(NED低至0.035)和高速度(单A100每秒34.7页),证明了合成数据是解决OCR多语言数据瓶颈的关键路径。
Simon Willison 用其著名的“鹈鹕骑自行车”测试对比了本地运行的阿里Qwen3.6与云端Claude Opus 4.7,发现小模型在创意SVG生成上意外胜出,揭示了开源模型在特定任务上的惊人潜力。
LangChain评测显示,GLM-5和MiniMax M2.7等开源模型在文件操作、工具调用等核心Agent任务上已追平闭源前沿模型,但成本仅为后者的1/10至1/20,延迟更低。