RAG 质量评估：场景案例

这里有几个典型的应用场景，展示了如何利用本 Skill 从不同维度提升 RAG 系统的表现。

场景 1：新知识库上线前的“压力测试”

你刚刚为公司的财务部搭建了一个政策问答机器人。在正式发布给全公司使用前，你需要确保它不会在关键政策上“翻车”。

你并没有盲目地去一个个问问题，而是利用本 Skill 的合成 QA 生成能力，针对报销流程、个税政策、年假规定等 10 个核心文档分块，自动生成了 50 组问答对。

当你把这 50 组问题喂给系统后，发现 Recall@3 只有 75%。这提醒你，当前的文档切片太细了，导致一些跨段落的政策信息被切断了。于是你调整了分块重叠度（Overlap），再次测试，指标提升到了 94%，这才安心上线。

客服小王反馈，AI 机器人在回答“产品保修期”时，经常把 A 型号和 B 型号搞混，出现了明显的幻觉。

你提取了这几个 bad case 的 intermediate traces，使用端到端错误归因功能进行分析。分析结果显示：检索阶段其实搜到了正确的 A 型号文档，但由于文档中同时也提到了 B 型号作为对比，生成模型在整合信息时发生了错误。

针对这个发现，你没有去动检索算法，而是优化了生成环节的提示词（Prompt），加入了一句“请严格区分不同型号的保修条款”。再次进行对比测试，幻觉问题得到了解决。

项目进入到后期，老板问你：“咱们这半个月优化了啥？效果怎么样？”

你直接调用了指标统计功能，展示了优化前后的对比数据：通过对分块策略的网格搜索，我们将系统的平均倒数排名（MRR）从 0.65 提升到了 0.82。

这意味着以前用户平均要在第 2-3 个结果里找答案，现在基本上首选结果就是正确的。这份量化的报告让老板一眼就看出了技术团队的价值，也为后续申请更多算力资源提供了数据支撑。