
RAG 质量评估:原理解析
Written By

技能练习生
你可能好奇,RAG 质量评估是如何在复杂的文档和模型输出中,一眼看破问题的本质?其实它的底层逻辑就像一位资深的“阅卷老师”,通过标准化的流程来审核每一份答卷。
老师如何判卷:三步核查法
为了公平、客观地评价一个 RAG 系统,本 Skill 会按照以下三个阶段进行工作:
第一步:建立标准答案库(出题)
它首先扫描你的原始文档。利用一个专门用于“提问”的 AI 专家,它会寻找文档中那些具有独特信息、无法从常识推导出的“硬事实”(Facts)。接着,它会把这些事实转化为一个个具体的问题。这确保了每个问题都有唯一的、可溯源的正确答案。
第二步:模拟学生答题(测试)
它会将这些问题喂给你的 RAG 系统。此过程中,它不仅记录最后的输出,还会像监控摄像头一样,记录下检索系统“翻阅”了哪些文档(Chunks)、排名的先后顺序,以及生成模型“阅读”这些文档时的注意力权重。
第三步:双维交叉评估(评卷)
这是最核心的一步,本 Skill 会从两个独立维度进行交叉打分:
- 检索维(能找到吗?): 对比标准答案所在的 Chunk 是否出现在检索结果的前 k 位。
- 生成维(会答吗?): 即使找到了 Chunk,生成模型是否准确提取了信息?是否添加了文档中不存在的幻觉信息?
RAG 评估流程
数据安全与隐私保障
在评估过程中,所有的文档分析和 QA 生成均在选定的模型环境下完成。我们建议用户在评估涉及敏感隐私的文档(如个人病历、保密协议)时,优先选择经过私有化部署的企业级模型。评估过程产生的 traces 数据也仅用于当前的质量诊断,不会被用于任何模型的二次训练。