标签: 多模态 (5 篇)

LLM 库大重构：从“一问一答”到“多轮对话流”，开发者如何应对？

Simon Willison 的 LLM 库发布重大更新，将输入输出从简单文本提示/响应，重构为支持多轮消息序列和流式混合类型响应的复杂结构，以适应现代大模型的多模态与工具调用能力。

Simon Willison · 2026年4月30日

vLLM语义路由器在扩展多模态能力时发现，其视觉编码器输出的信号与参考模型严重不符，导致路由决策“自信地犯错”，揭示了AI系统从处理文本到处理完整请求时，信号正确性成为关键控制平面要求。

vLLM Blog ·

NVIDIA 发布全模态理解模型 Nemotron 3 Nano Omni，在文档、音视频理解和智能体操控等任务上刷新多项开源基准，且效率远超同类模型。

Hugging Face Blog ·

LlamaIndex 发布首个面向 AI Agent 的 OCR 基准 ParseBench，并展示了其解析工具在结构化文档理解、多模态推理等方面的突破，标志着文档处理正从文本提取走向深层语义理解。

LlamaIndex Blog ·

Meta发布新模型Muse Spark，但真正的看点在于其聊天界面集成了16种工具，包括网页搜索、社交媒体内容搜索、代码解释器等，构建了一个完整的AI Agent工作台。

Simon Willison ·