Eval 审计:快速入门

Eval 审计:快速入门

Written By
技能练习生
技能练习生

想要给你的 AI 评估系统做一次深度的“体检”,只需要几步简单的准备。无论你已经有一套成熟的基建,还是正打算开始,都可以通过以下方式快速上手。

准备工作

在开始之前,请尽量准备好以下材料(如果没有,审计过程也会提示你如何开始收集):

  • 评估配置:你的 LLM 裁判(Judge)提示词或评估器脚本。
  • 运行轨迹:模型生成的记录(Traces)或导出为 CSV/JSON 的实验结果。
  • 金标数据:如果你已经有了一些人工标注的数据,请放在手边。

开启审计

你可以在对话框中直接发起请求,让系统对指定的评估路径进行审计:

/eval-audit 请审计一下我在 data/eval_configs/ 目录下的评估设置

或者,如果你想针对特定的问题进行诊断:

/eval-audit 我们的用户点踩率很高,但评估得分却保持在 95% 以上,帮我查查原因。

预期结果

审计完成后,你将获得一份按优先级排列的改进建议列表。例如:

  1. [严重] 裁判未验证:发现你在生产中使用了未经过人工数据对齐的 LLM 裁判,建议立即进行 TPR/TNR 测量。
  2. [重要] 错误分析缺失:评估指标过于泛化,建议通过系统性的错误分析(Error Analysis)来捕捉业务侧真实的失败模式。
  3. [建议] 转向二元判定:当前使用的 1-5 分制存在较大的主观偏差,建议转换为更稳定的“通过/失败”二元判定。

每一项建议都会配合具体的行动指南,帮你快速修正评估航向。