不用向量库，600行代码打造可溯源的金融尽调AI助手

原文: Building a Financial Due Diligence Agent with LiteParse

LlamaIndex演示了一个仅用600行代码、无需向量数据库的金融尽调AI Agent，其核心是利用LiteParse解析PDF布局信息，实现答案在原文的精准高亮溯源。

核心要点

核心创新是利用LiteParse提取PDF文本的精确坐标，实现答案在原始文档的视觉化溯源，极大增强了AI回答的可信度。
项目架构极度精简，仅约600行代码，刻意避免了向量数据库和嵌入管道，演示了构建AI Agent的‘最小可行’路径。
搜索采用关键词匹配而非向量相似度，这种‘反潮流’选择在特定场景（如精确数字核对）下可能更高效、更透明。
这是一个关于‘AI应用工程哲学’的优秀案例：在追求复杂RAG架构的浪潮中，用最简单的工具解决最核心的信任问题。

深度解读

起因：金融分析师的“PDF苦力活”为什么值得被AI解决？ 金融尽职调查是出了名的文档密集型工作。分析师高达70%的时间花在手动数据提取上——把PDF财报转录成表格、核对科目、追溯数据源。一个并购案可能涉及数百页SEC文件，每个数字都必须有据可查。这不仅是效率问题，更是信任和透明度的核心痛点。当AI给出一个答案时，用户如何相信它？如何快速验证？LlamaIndex的这个演示项目，正是瞄准了这个“最后一公里”的信任问题。

拆解：不用向量库，如何实现“精准溯源”？ 项目的核心魔法在于LiteParse。与大多数PDF解析器只输出文本或Markdown不同，LiteParse能输出文本及其精确的布局信息（每个单词的x, y, width, height坐标）。这意味着系统知道每个数字在原始PDF页面上的确切位置。

整个架构异常简洁：

解析层：用LiteParse将PDF转为带有坐标信息的结构化数据。
存储层：直接存为JSON文件，没有数据库。
搜索层：没有使用向量嵌入和相似度搜索，而是采用传统的关键词匹配。将查询拆分成词项，计算每个页面包含的词项数量来打分。这种“反潮流”的选择在需要精确匹配数字或专有名词（如公司名、会计科目）的场景下，可能比模糊的语义搜索更直接、更可控。
工具与引用层：Agent拥有搜索文档、查询SEC EDGAR数据库等工具。最关键的是，当Agent引用一个数字时，系统能利用之前存储的坐标信息，在UI上将原文中的对应文本高亮显示。

整个核心库代码仅约600行，刻意避免了向量数据库、嵌入管道等外部基础设施，只依赖一个LLM API密钥。这演示了构建一个有效AI Agent的“最小可行”路径。

趋势洞察：这揭示了AI应用工程的“简约化”和“可解释性”趋势 在RAG（检索增强生成）架构普遍追求更复杂检索策略、更大知识库的背景下，这个项目提供了一个重要的反思：最有效的解决方案未必是最复杂的。它抓住了企业级AI应用最核心的障碍之一——信任。通过提供视觉化的、精确到像素的溯源能力，它直接将AI的“黑箱”输出与原始证据关联起来。这比返回一堆相关度分数或文本片段，对用户（尤其是金融、法律、医疗等严谨领域的专业人士）来说，说服力强得多。

同时，它也展示了文档布局信息作为一类关键数据的价值。未来，理解文档的视觉结构（表格、图表、标题层级）而不仅仅是文本内容，将成为提升AI处理专业文档能力的关键。

实用价值：开发者可以从中借鉴什么？

重新思考搜索策略：在你的场景中，向量搜索真的是必需的吗？如果你的用户需要的是查找包含特定术语或数字的段落，传统的关键词或全文搜索可能更简单、更快速、结果更可预测。
将“可解释性”作为核心功能设计：不要只满足于返回答案。思考如何让用户能够一键验证答案的来源。在金融、法律、学术、客服等领域，这能极大提升产品的采纳度和信任度。
拥抱“小而美”的架构：对于许多内部工具或特定领域应用，一个精简、无需维护复杂基础设施的架构，在开发速度、可维护性和成本上优势明显。这个600行的演示是一个极佳的起点和架构范例。

反常识/意外 最令人意外的或许是它完全抛弃了向量数据库。在当下“言必称Embedding”的AI开发环境中，这像一股清流。它提醒我们，技术选型应取决于具体问题，而非潮流。对于需要精确匹配和强溯源的任务，一个精心设计的简单系统，可能比一个通用的、但解释性差的复杂系统更有价值。这个项目本质上不是在展示最先进的AI技术，而是在展示如何将AI能力可靠地集成到高风险的业务流程中——这正是许多企业真正需要的。

原文地址: Building a Financial Due Diligence Agent with LiteParse

分析由 BitByAI 生成 · 阅读原文

原文来自 LlamaIndex Blog · 由 BitByAI 自动解读