LLM 裁判校准器：快速入门

开始给 AI 裁判做体检前，你需要准备两样东西：一份由你（或者你的业务专家）亲自标注的“标准答案”（建议 100 条左右，通过和失败的案例各占一半），以及你目前正在使用的 AI 裁判提示词。

不要一股脑把数据全塞给 AI。我们先要玩个“隔离游戏”，把数据分成三份。你可以直接对本技能说：

我手头有 100 条标注好的数据，请帮我按照 15/45/40 的比例进行训练集、开发集和测试集的切分。

这一步的目的是确保你的 AI 裁判不会因为“见过题目”而作弊。其中 15% 的训练集用来给 AI 举例，45% 的开发集用来反复调试，而剩下的 40% 是绝对的“盲盒”，只有在最后大考时才能打开。

在开发集上运行你的 AI 裁判，然后对比两者的结果。你会得到两个关键数字：

如果这两个数字都超过了 90%，那么恭喜你，这个 AI 裁判已经可以作为你的贴身助手了。如果只有 70% 甚至是 80%，先别急着上线，我们需要在下一步中看看它到底在纠结什么。