
Eval 审计:场景案例
Written By

技能练习生
如果你还不确定在什么情况下该请出这位“审计专家”,看看下面这些真实的场景,或许能给你带来启发。
场景 1:接手“二手”评估系统,心里没底
小王刚入职一家 AI 创业公司,接手了前任留下的评估体系。报表看起来很专业,又是 F1 分数又是 BERTScore。但他心里一直打鼓:这些指标真的能反映产品的好坏吗?于是他用 Skill 扫了一下:
“帮我审计一下现有的评估逻辑,这是我们的裁判提示词和几个典型的评测结果。”
审计结果一出来,小王惊出一身冷汗:原有的评估几乎全靠语义相似度,根本没抓住业务里最关键的“计算逻辑错误”。他在审计建议的指导下,立刻引入了基于代码的准确性校验,让团队终于看清了模型的真实水平。
场景 2:数据很好看,用户却在批量“退货”
某产品经理发现,模型在内部评测集上的表现一直在 90 分以上,但最近一个月用户的投诉率却在飙升。他尝试通过审计寻找断层:
“模型得分很高,但用户反馈却很差,审计一下我们的评估流程哪里出了漏洞。”
审计报告一眼锁定了问题:现有的 LLM 裁判由于缺乏对齐验证,表现出了严重的“社交偏见”(总是给高分),对模型产生的一本正经的胡说八道(幻觉)视而不见。审计建议他立即停掉评分制,改用具体的失败判定准则来重新校准裁判。
场景 3:新项目上马,还在为“怎么评”发愁
老张正在带队开发一个全新的客服机器人,目前除了几百条对话日志,什么基建都没有。他不想盲目写裁判,于是问审计:
“我们要给新做的客服机器人建立评估体系,目前只有一堆原始日志,我该从哪开始?”
审计没有丢给他一堆复杂的看板,它温柔地指路:先做一个简单的错误分析,手动看 50 条日志,把最常出现的 3 类错误找出来;然后根据这三类错误写三个针对性的判断脚本。这就叫“先走后跑”,帮老张少走了许多弯路。