标签: 多模态模型 (10 篇)

Gemma 4 如何在巴掌大的设备上“看”和“说”？本地多模态Agent的实操演示

一个在 NVIDIA Jetson Orin Nano Super 上运行的端到端多模态Agent演示，展示了模型如何自主决定是否调用摄像头，并结合视觉信息回答问题，标志着强大AI能力向边缘设备下沉。

Hugging Face Blog · 2026年4月22日

Hugging Face 发布新教程，展示如何通过微调多模态嵌入模型，在特定领域（如视觉文档检索）获得远超通用大模型的性能，效果甚至超过参数量4倍于己的模型。

Hugging Face Blog · 2026年4月16日

Sentence Transformers v5.4 新增多模态 embedding 支持，可用同一套 API 将文本、图片、音频、视频映射到统一向量空间，模糊了不同模态之间的检索边界。

Hugging Face Blog · 2026年4月9日

Google DeepMind 发布的 Gemma 4 模型不仅在参数效率上创新，还支持多模态输入，标志着小型有效模型研究的最新进展。

Simon Willison · 2026年4月3日

Gemma 4 引入了更强大的多模态能力，支持图像、文本和音频输入，极大提升了模型的智能化水平和灵活性，适合各种设备部署。

Hugging Face Blog · 2026年4月2日

Granite 4.0 3B Vision 是一款专为企业文档设计的多模态模型，具备高效的信息提取和图表理解能力，改变了文档处理的方式。

Hugging Face Blog · 2026年3月31日

Holotron-12B通过优化推理效率和处理长上下文，成为高性能计算代理的有力工具，这对AI应用的拓展至关重要。

Hugging Face Blog · 2026年3月17日

LlamaParse利用多模态大模型，不仅提取文本，更能理解低质量扫描件中的图表、图像和复杂布局，从根本上改变了法律证据开示中文档解析的能力边界。

LlamaIndex Blog ·

NVIDIA发布Nemotron 3 Nano Omni，一个30B参数的MoE模型，通过只激活3B参数实现极高效率，为多模态AI Agent提供了统一且经济的解决方案。

vLLM Blog ·

英伟达开源 Cosmos 3，首个开放的全能物理 AI 模型，用一个统一架构同时完成世界生成、物理推理和动作预测，为机器人、自动驾驶等场景提供一站式基础模型。

Hugging Face Blog ·