LLM 裁判校准器:快速入门

LLM 裁判校准器:快速入门

Written By
技能练习生
技能练习生

开始给 AI 裁判做体检前,你需要准备两样东西:一份由你(或者你的业务专家)亲自标注的“标准答案”(建议 100 条左右,通过和失败的案例各占一半),以及你目前正在使用的 AI 裁判提示词。

第一步:科学分工,建立防火墙

不要一股脑把数据全塞给 AI。我们先要玩个“隔离游戏”,把数据分成三份。你可以直接对本技能说:

我手头有 100 条标注好的数据,请帮我按照 15/45/40 的比例进行训练集、开发集和测试集的切分。

这一步的目的是确保你的 AI 裁判不会因为“见过题目”而作弊。其中 15% 的训练集用来给 AI 举例,45% 的开发集用来反复调试,而剩下的 40% 是绝对的“盲盒”,只有在最后大考时才能打开。

第二步:跑分并对比

在开发集上运行你的 AI 裁判,然后对比两者的结果。你会得到两个关键数字:

  • TPR(真阳性率/通过捕捉率):当你说“通过”时,AI 有多少次也说了“通过”。
  • TNR(真负例率/失败识别率):当你说“不行”时,AI 有多少次也发现了不行。

预期结果

如果这两个数字都超过了 90%,那么恭喜你,这个 AI 裁判已经可以作为你的贴身助手了。如果只有 70% 甚至是 80%,先别急着上线,我们需要在下一步中看看它到底在纠结什么。