标签: 智能体 (23 篇)

智能体落地，为什么总差一步？NVIDIA专家：你缺的是开放数据

NVIDIA专家指出，构建真正可靠的AI智能体，关键在于开放数据和合成数据——前者让行为可解释，后者在不泄露公司秘密的前提下实现规模化训练。

Hugging Face Blog · 2026年7月9日

一个 Prompt 的自我修养：用 DSPy 给 AI Agent 的 SQL 提示做“体检”

Simon Willison 利用 DSPy 框架自动化评估并改进了 Datasette Agent 的 SQL 提示，发现了“猜列名”等隐藏缺陷，揭示了提示工程从手调到科学迭代的转变。

Simon Willison · 2026年7月3日

“人类不在回路中”：Jon Udell 如何反转 AI 协作叙事

Jon Udell 主张抛弃“human in the loop”的被动说法，代之以“agent-assisted process”，让开发者主动邀请 AI 进入自己的开发流程，从文化层面重塑人机协作关系。

Simon Willison · 2026年6月29日

2000人围攻AI助手失败：提示注入防御的真实进展与隐忧

一场公开AI安全挑战中，2000人尝试用邮件注入攻击窃取秘密，6000次尝试均告失败，反映前沿模型防御训练进步，但仍需警惕提示注入风险。

Simon Willison · 2026年6月27日

vLLM 如何让 330 亿参数的编程大模型跑得更快：Laguna XS.2 的三大加速秘技

Poolside 的 330 亿参数编程智能体模型 Laguna XS.2，通过 vLLM 原生集成、DFlash 投机解码和 LLM Compressor 量化，在不损失质量的情况下实现了 2-3 倍的推理加速。

vLLM Blog · 2026年5月28日

Claude 不再只是模型：从“顾问策略”到“多智能体舰队”的范式转移

Anthropic 在 Code w/ Claude 大会上展示了从单一模型向平台化、多智能体协作的全面转型，核心是让开发者能更高效地构建和运行复杂、长时间的智能体任务。

Simon Willison · 2026年5月6日

AI在斯德哥尔摩开了家咖啡馆：一个关于自主性、伦理与现实碰撞的生动案例

一个AI自主运营实体咖啡馆的实验，因离谱采购和给外部机构制造麻烦而引发伦理争议，揭示了AI代理在现实世界中缺乏边界感的深层问题。

Simon Willison · 2026年5月6日

评估成本超越训练：AI竞赛的隐性瓶颈正在转移

AI评估成本正急剧攀升，单个智能体基准测试花费可达数万美元，其复杂性使其难以压缩，正成为限制AI研发的新计算瓶颈。

Hugging Face Blog · 2026年4月30日

PyCon 2026 首设 AI 与安全专题：Python 社区正在如何拥抱 AI 浪潮？

PyCon US 2026 首次设立 AI 专题，议程涵盖本地模型部署、异步Agent模式、边缘推理等，标志着 Python 社区正系统性地将 AI 融入其核心生态与开发者工作流。

Simon Willison · 2026年4月18日

浏览器里的“数字分身”：HoloTab如何让AI替你操作网页

HCompany推出免费Chrome插件HoloTab，通过“演示一遍，永久运行”的Routines功能，将复杂的网页自动化任务简化为普通用户可操作的自然语言指令，标志着计算机使用AI走向大众化。

Hugging Face Blog · 2026年4月15日

LangChain 的“深水炸弹”：开源 Agent 部署方案，直指 Claude 的“围墙花园”

LangChain 推出 Deep Agents Deploy，旨在通过完全开源、模型无关的 Agent 框架和部署方案，打破闭源平台对 Agent 记忆和生态的锁定，强调记忆所有权是未来 Agent 竞争的核心。

LangChain Blog ·

告别模板依赖：当AI学会“阅读理解”，文档自动化迎来范式转变

文章提出，通过引入“计划-执行-验证”的智能体循环，文档处理正从机械的模式匹配转变为具备空间感知和上下文推理能力的认知任务，从而突破传统OCR的瓶颈。

LlamaIndex Blog ·

Claude Opus 4.7 发布：当AI学会“自我验证”，离自主Agent还有多远？

Anthropic发布Claude Opus 4.7，重点提升复杂编码和长时任务处理能力，其“自我验证”机制标志着AI Agent向更高自主性迈出关键一步。

Anthropic News ·

NVIDIA 发布 Nemotron 3 Nano Omni：一个模型搞定文档、音频、视频的长上下文智能体

NVIDIA 发布全模态理解模型 Nemotron 3 Nano Omni，在文档、音视频理解和智能体操控等任务上刷新多项开源基准，且效率远超同类模型。

Hugging Face Blog ·

当Agent学会grep：LlamaIndex新架构如何让AI检索从“猜”变“查”

LlamaIndex推出Retrieval Harness和MCP重构，让Agent通过list、grep等文件系统工具主动遍历语料库，把检索从‘猜’变成‘查’，大幅提升答案可靠性。

LlamaIndex Blog ·

Anthropic瞄准中小企业：Claude不再只是聊天机器人，而是你的AI业务伙伴

Anthropic推出Claude for Small Business，通过预置连接器和自动化工作流，将AI深度嵌入中小企业日常运营工具，旨在解决其AI应用浅层化问题。

Anthropic News ·

当AI助手变成“内鬼”：Copilot Cowork的数据泄露漏洞揭示了什么

微软Copilot Cowork被曝存在严重安全漏洞，攻击者可通过提示注入，利用AI代理自动发送的邮件和预授权链接窃取用户文件。

Simon Willison ·

当合规遇上OCR：为什么你的KYC流程总是“差点意思”？

文章揭示了传统OCR技术在金融KYC合规流程中的根本性缺陷，指出其无法处理真实世界复杂文档，并提出了“智能体OCR”作为解决方案。

LlamaIndex Blog ·

Claude Sonnet 5 发布：中端模型“逆袭”，平价智能体时代来了

Anthropic 发布 Sonnet 5，性能逼近旗舰 Opus 4.8 但成本大幅降低，让开发者可以用中端模型构建强大的自主智能体。

Anthropic News ·

当AI学会“长跑”：vLLM与Mooncake如何让智能体服务成本暴降

vLLM集成Mooncake分布式KV缓存，解决智能体工作负载中重复计算长上下文前缀的瓶颈，实现吞吐量提升3.8倍、首字延迟降低46倍的显著性能飞跃。

vLLM Blog ·

Vibe Coding 与 Agentic Engineering：当「感觉良好」遇上「专业交付」，界限正在模糊

资深工程师 Simon Willison 发现，随着 AI 编码工具可靠性提升，他原本严格区分的「感觉良好式编码」与「专业智能体工程」的界限正在模糊，这引发了关于代码审查责任与信任的新思考。

Simon Willison ·

为什么你的文档提取总在关键处出错？深度解析“深度提取”如何解决

单次提取在复杂文档中易出错且无法自查，而深度提取通过多智能体循环验证，将准确率从80%提升至99%以上，是生产级应用的关键。

LlamaIndex Blog ·

掌控Agent记忆：为什么你必须拥有自己的“驾驭层”

文章指出，Agent的“驾驭层”与记忆深度绑定，使用闭源或API化的驾驭层意味着将记忆控制权交给第三方，造成深度锁定。记忆应是开放的。

LangChain Blog ·