
LLM 裁判校准器:常见问题
Written By

技能练习生
我手头只有几十条数据,能做校准吗?
虽然 100 条是建议的理想门槛,但几十条也是可以开始的。关键不在于总量,而在于比例。只要你能保证“通过”和“不通过”的数据大致各占一半,哪怕只有 40-60 条,也能帮你发现那些明显的偏差。当数据量较小时,建议先关注开发集上的表现。
为什么要分训练、开发、测试三个集,分两个不行吗?
如果你直接在测试集上边改边测,那么最后测出的准确率其实已经失效了,因为你的提示词是专门针对这些题目优化的。这叫“过拟合”。多出的一个“开发集”就像是一块试验田,你可以在这上面随便折腾,直到满意为止,而“测试集”则是保留最后的一分公信力。通常我们建议比例为 15% 训练(用于 Prompt 示例)、45% 开发(用于迭代)和 40% 测试(用于最终验证)。
当 AI 和我的判断不一致时,我该怎么修改提示词?
不要只是说“请判断得更准确一点”。你应该打开校准器筛选出的分歧案例,看看 AI 在那一刻是怎么想的。如果是它太严格,就在提示词里给几个“虽然……但依然可以给过”的正面例子;如果是它太宽松,就增加一些“只要出现……就必须判错”的负面清单。
AI 裁判计算出的“通过率”可以直接拿来汇报吗?
如果你的 AI 裁判 TPR 和 TNR 都非常接近 100%,那么可以直接使用。但通常建议使用校准器提供的修正逻辑处理后再汇报。这样即便你的 AI 裁判有一定偏差,你也能向业务方解释:虽然 AI 认为通过率是 80%,但根据之前的标定结果,真实的通过率业务水位应该是 85%。