Eval 审计：常见问题

可以。如果检测到你没有任何评估基建，审计会直接启动“冷启动”模式。它会引导你通过现有的模型日志进行初步的错误分析，并手把手教你建立第一版简单的评估流程。

不会。审计是一个“只读”过程，它会分析你的设置并给出修改方案（Fix），但除非你手动执行这些修正，否则它不会擅自改动你的任何原始文件。

建议在重大变更后运行审计。例如，当你更换了基础模型、重写了裁判提示词、或者增加了新的业务功能时。这能确保你的“标尺”没有因为系统的变动而失效。

针对中型项目，初次全面审计通常在 5-10 分钟内完成。它比你人工一行行核对配置、或是肉眼扫描几百条记录要高效得多。它给出的任务清单是按优先级排序的，你可以先处理最严重的“红色”问题。

毕竟并非所有问题都需要昂贵的 AI 来打分。对于格式、字符匹配、关键词缺失等客观问题，代码校验（Regex/Python）更快、更准、更省钱。审计会帮你把昂贵的 LLM 算力花在真正需要“理解力”的环节。