别让AI Agent闭门造车:人类判断力如何成为智能体进化的关键燃料
原文: Human judgment in the agent improvement loop
LangChain提出,构建可靠AI Agent的关键在于将领域专家的隐性知识和判断力系统性地融入其开发全生命周期,而非仅依赖模型自身能力。
核心要点
- 可靠Agent需要吸收人类专家的隐性知识(如交易惯例、数据库经验)
- 人类判断力应贯穿Agent开发全周期:工作流设计、工具设计、上下文构建
- 确定性代码与LLM自主性需根据业务风险平衡,例如在合规环节强制插入检查步骤
- 工具设计需在灵活性与控制力间权衡,并通过评估让所有利益相关方满意
- 行业趋势正从单一系统提示转向为Agent提供更丰富的、结构化的领域上下文
深度解读
你有没有遇到过这种情况:花大力气搭了一个AI Agent,演示时效果惊艳,但一到真实业务场景就状况百出?LangChain最近这篇博客点破了问题的核心——我们太专注于让大模型变得更聪明,却忽略了那些让业务真正跑起来的“隐性知识”。
这篇文章以一个金融公司的交易员助手为例,讲了一个很普遍的场景:交易员需要市场数据,以前靠数据分析师写SQL查询。用AI Agent自动化这个流程看似理所当然,但难点不在于让LLM生成SQL,而在于如何让它理解“今日风险敞口”这种术语在公司内部的具体含义,或者知道哪张数据表是权威的、哪种查询模式容易出错。这些知识不在任何文档里,而是存在于资深员工的脑子里。作者把这类知识称为“隐性知识”,并指出,构建可靠Agent的真正挑战,就是如何系统性地把这些人类判断力“喂”给AI。
文章提出了一个实用的三步框架。第一步是工作流设计。虽然LLM很擅长自己规划步骤,但作者提醒我们,在关键环节(比如合规检查)用确定性的代码来强制执行,反而能降低延迟、节省token,并确保万无一失。这就像给自动驾驶汽车加上一套必须遵守的硬性交规。第二步是工具设计。给Agent提供“执行SQL”的通用工具很灵活,但风险高;提供参数化的安全工具更可控,但能力受限。这个选择不能拍脑袋决定,必须通过评估,让技术、业务、风控等所有相关方都点头才行。第三步是上下文构建。行业趋势已经很明显:别再把所有信息塞进一个长长的系统提示里了。像Anthropic的Skills标准那样,把文档、示例、领域规则结构化地提供给Agent,效果会好得多。
这揭示了一个更深层的趋势:AI Agent的竞争焦点,正在从“谁的模型更聪明”转向“谁能把领域知识更好地工程化”。对于开发者而言,这意味着我们的角色正在转变——我们不仅是代码的编写者,更是业务知识与AI能力之间的“翻译官”和“架构师”。下次当你设计一个Agent时,第一个问题或许不该是“用哪个模型”,而应该是“我该邀请哪位业务专家坐到电脑旁边”。