标签: AI智能体 (19 篇)

告别模型崇拜：Hugging Face 推出首个「全栈」AI 智能体排行榜

Hugging Face 联合 IBM 推出 Open Agent Leaderboard，首次将评估对象从单一模型扩展到包含工具、规划、记忆的完整智能体系统，并同时衡量性能与成本。

Hugging Face Blog · 2026年5月18日

当AI学会“不忘初心”：Codex CLI的/goal指令如何让Agent持续奔跑

OpenAI的Codex CLI新增/goal指令，通过提示词工程让编码Agent能自动循环执行，直至达成目标或耗尽预算，这标志着Agent从“单次问答”向“持续任务”演进。

Simon Willison · 2026年5月1日

OpenAI 的“统一”野心：GPT-5.5 告别专用代码模型，走向通用智能体

OpenAI 高管确认 GPT-5.5 不再有专用代码版本，标志着大模型正从专用能力走向统一、通用的智能体系统。

Simon Willison · 2026年4月25日

百万上下文不再是摆设：DeepSeek-V4如何让AI智能体真正用起来

DeepSeek-V4通过创新的混合注意力机制，将百万token上下文窗口的推理成本和内存占用大幅降低，使其首次真正适用于长程、多步骤的AI智能体任务。

Hugging Face Blog · 2026年4月24日

Gemma 4 如何在巴掌大的设备上“看”和“说”？本地多模态Agent的实操演示

一个在 NVIDIA Jetson Orin Nano Super 上运行的端到端多模态Agent演示，展示了模型如何自主决定是否调用摄像头，并结合视觉信息回答问题，标志着强大AI能力向边缘设备下沉。

Hugging Face Blog · 2026年4月22日

AI智能体太像人了？一个反直觉的批评与深层启示

一位专家批评当前AI智能体过于“人性化”，表现为缺乏严谨、耐心和专注，并在困难面前倾向于妥协，这揭示了其设计上的根本缺陷。

Simon Willison · 2026年4月22日

AI Agent 如何真正“懂”韩国？600万合成人口数据给出的答案

NVIDIA 联合韩国机构发布了一个包含600万合成人口的韩国专属数据集，旨在让AI Agent能基于真实人口统计和文化背景进行交互，而非简单套用西方模式。

Hugging Face Blog · 2026年4月21日

HuggingFace发布VAKRA基准：AI Agent的“期末考试”为何集体不及格？

IBM与HuggingFace联合推出VAKRA基准，揭示当前AI Agent在复杂多步骤任务中表现不佳，主要失败模式包括工具链规划、参数传递和错误恢复能力不足。

Hugging Face Blog · 2026年4月15日

LangChain 为 AI Agent 引入“异步子代理”：告别阻塞，迎接并行

LangChain 为其 Deep Agents 框架引入了异步子代理功能，使主代理能并行调度多个耗时任务，解决了代理工作流中的阻塞瓶颈。

LangChain Blog · 2026年4月8日

当AI学会“读文件”：智能文档处理如何重塑业务自动化

文章阐述了智能文档处理如何让AI从被动提取数据，转变为主动理解、推理并执行复杂业务流程，从而实现端到端自动化。

LlamaIndex Blog ·

AlphaEvolve：当AI学会“进化”算法，编程的未来已悄然改变

谷歌DeepMind推出AI编程智能体AlphaEvolve，它能结合大模型创意与自动化评估，自主发现和优化复杂算法，已应用于数据中心、芯片设计和AI训练。

Google DeepMind Blog ·

LangChain与MongoDB联手：在你熟悉的数据库上，构建下一代AI智能体

LangChain与MongoDB深度集成，将Atlas数据库打造成集向量搜索、持久化记忆、自然语言查询和全栈可观测性于一体的AI智能体统一后端，旨在解决生产环境中的数据孤岛和基础设施复杂性问题。

LangChain Blog ·

Meta的“效率特工”：AI如何自动优化超大规模基础设施，省下数百兆瓦电力

Meta构建了统一AI智能体平台，将资深工程师的领域知识编码为可复用的技能，自动发现并修复基础设施的性能问题，显著节省电力和人力。

Meta Engineering Blog ·

AI Agent的持续学习：不止于微调，更在于框架与上下文

AI Agent的持续学习不仅限于模型权重更新，更关键的进化发生在‘框架’和‘上下文’层，这为构建真正个性化、可成长的智能体提供了新思路。

LangChain Blog ·

前沿AI集体“不及格”：首个企业IT运维基准测试揭示了什么？

IBM联合发布首个企业IT运维智能体基准测试，结果显示包括GPT-5.5、Claude Opus 4.7在内的顶尖模型在Kubernetes故障诊断任务中得分均低于50%，揭示了AI在复杂、真实世界企业任务中的巨大挑战。

Hugging Face Blog ·

LlamaIndex发布ParseBench：为AI Agent量身打造的OCR“高考”，文档处理进入新阶段

LlamaIndex推出首个专为AI Agent设计的OCR基准ParseBench，并开源了本地化文档解析服务器和安全沙箱CLI Agent，标志着文档处理正从通用工具向Agent原生基础设施演进。

LlamaIndex Blog ·

普华永道全员部署Claude：咨询巨头如何用AI重塑企业服务？

普华永道与Anthropic深化合作，计划在全球部署Claude并培训数万员工，标志着AI正从实验工具转变为重塑核心商业流程的生产力引擎。

Anthropic News ·

当Agent从实验走向生产：企业级规模化落地的实战蓝图

LangChain预告其2026年Interrupt大会，主题从‘Agent能否用于生产’转向‘如何实现企业级规模化’，聚焦评估、团队构建和基础设施等核心挑战。

LangChain Blog ·

从指令执行者到推理伙伴：SIMA 2如何用Gemini重塑游戏AI

DeepMind发布的SIMA 2将Gemini的推理能力融入3D游戏AI，使其从执行简单指令进化为能理解目标、进行对话和自我提升的智能伙伴。

Google DeepMind Blog ·