RAG 质量评估:场景案例

RAG 质量评估:场景案例

Written By
技能练习生
技能练习生

这里有几个典型的应用场景,展示了如何利用本 Skill 从不同维度提升 RAG 系统的表现。

场景 1:新知识库上线前的“压力测试”

你刚刚为公司的财务部搭建了一个政策问答机器人。在正式发布给全公司使用前,你需要确保它不会在关键政策上“翻车”。

你并没有盲目地去一个个问问题,而是利用本 Skill 的合成 QA 生成能力,针对报销流程、个税政策、年假规定等 10 个核心文档分块,自动生成了 50 组问答对。

当你把这 50 组问题喂给系统后,发现 Recall@3 只有 75%。这提醒你,当前的文档切片太细了,导致一些跨段落的政策信息被切断了。于是你调整了分块重叠度(Overlap),再次测试,指标提升到了 94%,这才安心上线。

场景 2:解决“AI 总是胡说八道”的幻觉难题

客服小王反馈,AI 机器人在回答“产品保修期”时,经常把 A 型号和 B 型号搞混,出现了明显的幻觉。

你提取了这几个 bad case 的 intermediate traces,使用端到端错误归因功能进行分析。分析结果显示:检索阶段其实搜到了正确的 A 型号文档,但由于文档中同时也提到了 B 型号作为对比,生成模型在整合信息时发生了错误。

针对这个发现,你没有去动检索算法,而是优化了生成环节的提示词(Prompt),加入了一句“请严格区分不同型号的保修条款”。再次进行对比测试,幻觉问题得到了解决。

场景 3:为老板写一份“系统优化进度报告”

项目进入到后期,老板问你:“咱们这半个月优化了啥?效果怎么样?”

你直接调用了指标统计功能,展示了优化前后的对比数据:通过对分块策略的网格搜索,我们将系统的平均倒数排名(MRR)从 0.65 提升到了 0.82。

这意味着以前用户平均要在第 2-3 个结果里找答案,现在基本上首选结果就是正确的。这份量化的报告让老板一眼就看出了技术团队的价值,也为后续申请更多算力资源提供了数据支撑。