RAG 质量评估：原理解析

你可能好奇，RAG 质量评估是如何在复杂的文档和模型输出中，一眼看破问题的本质？其实它的底层逻辑就像一位资深的“阅卷老师”，通过标准化的流程来审核每一份答卷。

为了公平、客观地评价一个 RAG 系统，本 Skill 会按照以下三个阶段进行工作：

它首先扫描你的原始文档。利用一个专门用于“提问”的 AI 专家，它会寻找文档中那些具有独特信息、无法从常识推导出的“硬事实”（Facts）。接着，它会把这些事实转化为一个个具体的问题。这确保了每个问题都有唯一的、可溯源的正确答案。

它会将这些问题喂给你的 RAG 系统。此过程中，它不仅记录最后的输出，还会像监控摄像头一样，记录下检索系统“翻阅”了哪些文档（Chunks）、排名的先后顺序，以及生成模型“阅读”这些文档时的注意力权重。

这是最核心的一步，本 Skill 会从两个独立维度进行交叉打分：

在评估过程中，所有的文档分析和 QA 生成均在选定的模型环境下完成。我们建议用户在评估涉及敏感隐私的文档（如个人病历、保密协议）时，优先选择经过私有化部署的企业级模型。评估过程产生的 traces 数据也仅用于当前的质量诊断，不会被用于任何模型的二次训练。