为何依赖LLM评判无法拯救产品，优化流程才是关键

在讨论如何提升产品质量时，很多人可能会认为引入一个强大的工具，比如 LLM（大语言模型）作为评判者，就能解决问题。然而，Eugene Yan 的观点提醒我们，这种想法其实是本末倒置的。真正要解决产品问题的关键在于优化我们的评估流程，而不是单纯依赖技术。\n\n首先，我们需要理解，产品评估并不是一个静态的过程，它应该遵循科学方法。这一过程包括观察数据、进行实验和分析结果。我们需要仔细检查输入、AI 的输出以及用户如何与我们的系统互动，从中识别出系统的强项与弱项。\n\n接下来，针对发现的问题，我们需要对数据进行标注，特别是那些产生错误的输出。通过构建一个平衡的代表性数据集，我们才能针对性地进行评估，跟踪特定问题的表现。\n\n在此基础上，我们要假设特定失败的原因，并设计实验来验证这些假设。这可能涉及到重写提示、更新检索组件或使用不同的模型。关键在于能否明确实验结果是否真的带来了改善。\n\n在这个过程中，评估驱动开发（EDD）的理念也非常重要。EDD 强调在开发 AI 特性之前，先定义成功标准。与测试驱动开发（TDD）类似，EDD 也要求我们在系统更新的每一步都进行评估，确保能及时获取反馈，从而进行有效的迭代。\n\n然而，依赖自动化评估工具并不能完全解决问题。即使有了自动化评估，我们仍然需要人类的监督。定期检查和分析用户反馈是不可或缺的，这样才能确保我们的产品始终符合用户的需求。\n\n总之，依赖 LLM 来进行评判并不能拯救产品，产品的持续改进还是要靠我们优化评估流程，通过科学方法来驱动产品的发展。这不仅能减少缺陷，还能逐步建立用户的信任。只有通过这种持续的评估和迭代，才能在竞争激烈的市场中立于不败之地。