
AI 瓶颈诊断:常见问题
Written By

技能练习生
100 条记录会不会太多了?读不过来怎么办?
其实 100 条是一个被大量实践验证过的“黄金数字”。在这个量级下,新的错误模式通常已经不再出现了。而且你并不需要真的读完 100 条,当你认真判定前 30 到 50 条后,后面的分类工作其实非常快。这几十分钟的投入,能为你接下来的优化工作节省几十个小时的盲目尝试。
我一定要亲自标注吗?让 AI 自己总结错误分类行不行?
AI 可以帮你做聚类,但不能替你做主。AI 往往会根据表面相似度来归类,比如把所有关于“登录”的错都归在一起。但你一眼就能看出,有的登录失败是由于网络波动,有的是因为验证码 Prompt 写歪了。这两者的修复方案完全不同。所以,前期的手动介入是为了让后续的诊断真正具备“业务灵魂”。
诊断出了一堆问题,我该先修哪一个?
这就是量化分析的魅力所在。我们通常建议遵循“先高频后重疾”的原则。先修掉那些占到 40% 的高频错误,你的系统性能会瞬间得到肉眼可见的提升。然后再去针对那些频率虽低但影响巨大的“重疾”(比如泄露隐私或系统离线)进行专项防御。
如果没有真实的生产环境数据,可以做诊断吗?
当然可以。在这种情况下,你可以利用“合成数据”功能来模拟用户的各种刁钻提问。把这些模拟请求跑一遍你的完整流程,抓取出的链路同样可以进行瓶颈诊断。这甚至是许多成熟产品上线前的必经之路。
诊断完了,这些记录还有用吗?
太有用了!每一条确诊的失败记录都是最宝贵的“负样板”。你可以把它们直接加入到你的回归测试集里。下次当你修改了系统配置,只要一键跑一遍这些记录,就能立刻知道原来的坑有没有填上,新功能的上线是否稳健。