Eval 审计：场景案例

如果你还不确定在什么情况下该请出这位“审计专家”，看看下面这些真实的场景，或许能给你带来启发。

场景 1：接手“二手”评估系统，心里没底

小王刚入职一家 AI 创业公司，接手了前任留下的评估体系。报表看起来很专业，又是 F1 分数又是 BERTScore。但他心里一直打鼓：这些指标真的能反映产品的好坏吗？于是他用 Skill 扫了一下：

“帮我审计一下现有的评估逻辑，这是我们的裁判提示词和几个典型的评测结果。”

审计结果一出来，小王惊出一身冷汗：原有的评估几乎全靠语义相似度，根本没抓住业务里最关键的“计算逻辑错误”。他在审计建议的指导下，立刻引入了基于代码的准确性校验，让团队终于看清了模型的真实水平。

某产品经理发现，模型在内部评测集上的表现一直在 90 分以上，但最近一个月用户的投诉率却在飙升。他尝试通过审计寻找断层：

“模型得分很高，但用户反馈却很差，审计一下我们的评估流程哪里出了漏洞。”

审计报告一眼锁定了问题：现有的 LLM 裁判由于缺乏对齐验证，表现出了严重的“社交偏见”（总是给高分），对模型产生的一本正经的胡说八道（幻觉）视而不见。审计建议他立即停掉评分制，改用具体的失败判定准则来重新校准裁判。

老张正在带队开发一个全新的客服机器人，目前除了几百条对话日志，什么基建都没有。他不想盲目写裁判，于是问审计：

“我们要给新做的客服机器人建立评估体系，目前只有一堆原始日志，我该从哪开始？”

审计没有丢给他一堆复杂的看板，它温柔地指路：先做一个简单的错误分析，手动看 50 条日志，把最常出现的 3 类错误找出来；然后根据这三类错误写三个针对性的判断脚本。这就叫“先走后跑”，帮老张少走了许多弯路。