Eval 审计：功能详解

Eval 审计不仅是一次简单的检查，它为你提供了一整套确保 AI 评估系统走向成熟的方法论。我们将这些能力归纳为以下三个核心板块：

它会检查你是否真正“看过”数据。如果评估指标只是泛泛而谈（如“很好”、“通顺”），此 Skill 会引导你建立具体的失败类别（如“引用了过期的法律条款”），确保你的评估系统能精准捕捉到真实的业务痛点。

我们会帮你审查现有的“考卷”设计。如果你还在让 AI 裁判打模糊的情感分，审计会建议你改用更量化的二元判定标准，并确保你没有过度依赖慢速的 LLM，转而尽可能利用代码校验来提升效率。

即使是最先进的模型也会犯错。此项功能会检查你是否定期用人工标注的数据来挑战 AI 裁判。通过引入 TPR（真阳性率）和 TNR（真阴性率）等指标，它会告诉你当前的裁判究竟有多可信。

审计会检查你的训练集、验证集和测试集是否严格分离。我们尤其关注你是否在裁判提示词中使用了重复的数据样本，避免指标产生虚假的膨胀。

评估不应只是冷冰冰的数据，它离不开人的判断。审计会评估你的审核界面是否友好，专家介入的时机是否合理，确保由于数据展现形式导致的“人工疲劳”降到最低。

AI 系统是会“飘”的。审计建议建立定期重新验证裁判和更新测评集的机制，确保你的评估系统在模型迭代和用户习惯改变后，依然能稳定发挥作用。