LLM 裁判校准器：常见问题

我手头只有几十条数据，能做校准吗？

虽然 100 条是建议的理想门槛，但几十条也是可以开始的。关键不在于总量，而在于比例。只要你能保证“通过”和“不通过”的数据大致各占一半，哪怕只有 40-60 条，也能帮你发现那些明显的偏差。当数据量较小时，建议先关注开发集上的表现。

为什么要分训练、开发、测试三个集，分两个不行吗？

如果你直接在测试集上边改边测，那么最后测出的准确率其实已经失效了，因为你的提示词是专门针对这些题目优化的。这叫“过拟合”。多出的一个“开发集”就像是一块试验田，你可以在这上面随便折腾，直到满意为止，而“测试集”则是保留最后的一分公信力。通常我们建议比例为 15% 训练（用于 Prompt 示例）、45% 开发（用于迭代）和 40% 测试（用于最终验证）。

当 AI 和我的判断不一致时，我该怎么修改提示词？

不要只是说“请判断得更准确一点”。你应该打开校准器筛选出的分歧案例，看看 AI 在那一刻是怎么想的。如果是它太严格，就在提示词里给几个“虽然……但依然可以给过”的正面例子；如果是它太宽松，就增加一些“只要出现……就必须判错”的负面清单。

AI 裁判计算出的“通过率”可以直接拿来汇报吗？

如果你的 AI 裁判 TPR 和 TNR 都非常接近 100%，那么可以直接使用。但通常建议使用校准器提供的修正逻辑处理后再汇报。这样即便你的 AI 裁判有一定偏差，你也能向业务方解释：虽然 AI 认为通过率是 80%，但根据之前的标定结果，真实的通过率业务水位应该是 85%。