技能评测器:场景案例

技能评测器:场景案例

Written By
技能练习生
技能练习生

下面几个场景,来自不同岗位的人在不同阶段使用评测器的真实体验。你大概率会在其中找到自己的影子。

场景 1:修复 PDF Skill 的定位偏移问题

这是一个来自 Anthropic 内部的真实案例。他们的 PDF Skill 在处理“可填写表单”时表现不错,但一碰到非可填写表单(没有预定义字段,需要在精确坐标上放置文字),就经常定位偏移。

团队给评测器喂了几份不同格式的非可填写表单作为测试用例,断言包括“文字必须与表单标签对齐”“坐标误差不超过 5 像素”。评测精确地隔离出了失败点:Skill 在缺少字段定义时无法正确锚定位置。修复方案是改为基于提取的文本坐标来定位,而非依赖字段元数据。修复后重跑评测,所有测试用例全部通过。

这个案例说明了一件事:有些 bug 靠手动试两个文件很难复现,但评测器的系统化覆盖能把它逼出来。

场景 2:产品经理验收新写的客服话术 Skill

小李给客服团队写了一个话术生成 Skill,能根据客户投诉类型自动拟回复模板。她自己试了两个投诉场景觉得效果不错,但心里没底:退货、物流延迟、质量问题这些高频场景全覆盖了吗?语气会不会太生硬?

她对 Claude 说:“帮我测试一下客服话术 Skill,覆盖退货、物流延迟、产品质量投诉这三类场景,每类各来一个典型案例。”

Claude 跑完三组对比测试后,Eval Viewer 弹出来。小李翻到物流延迟那组,发现 Skill 版本的回复漏掉了“预计到达时间”这个关键信息,而裸跑版反而提到了。她在批注栏写下“物流场景必须包含预计到达时间”,提交反馈。Claude 读取后在 Skill 里加了一条规则,重跑测试,这次三个场景全部通过。整个过程不到 20 分钟。

场景 3:运营总监对比新旧两版数据周报 Skill

老王的团队一直在用一个数据周报 Skill,但最近有人反映图表样式不够统一。他让 Claude 重写了一版,想知道新版到底有没有进步。

他说:“帮我对比一下新版和旧版的周报 Skill,用上周和本周的真实销售数据各跑一遍。”

Claude 先把旧版 Skill 快照保存,然后同时跑新版和旧版。Benchmark 标签页显示新版通过率从 67% 提升到 90%,但 Token 用量多了 40%。Analyzer 的备注指出“图表标题一致性”这条断言在新版全部通过,旧版全部失败,说明新版确实解决了核心问题。老王看完觉得 Token 的增加可以接受,拍板切换到新版。

场景 4:HR 用盲评挑选最佳面试评估 Skill

人力资源部有两位同事分别写了面试评估 Skill,都声称自己的更好用。HR 负责人不想凭主观印象做决定,于是启动了盲评模式。

她对 Claude 说:“用三份模拟面试记录,把两个面试评估 Skill 做一次盲评对比,我不想知道哪个是谁写的。”

Comparator Agent 收到两份标记为 A 和 B 的评估报告,在不知道来源的情况下打分。结果 A 在“评分标准覆盖度”和“防偏见检查”两个维度胜出,B 在“语言流畅度”上更好。Analyzer 揭盲后发现 A 是在 References 里放了完整的岗位评分标准,B 没有。改进建议很明确:B 需要补上评分标准作为参考资料。最终团队合并了两者的优点,产出了一个更强的版本。

场景 5:市场经理优化 Skill 的触发描述

市场部的文案审核 Skill 写好了,功能也验证过了,但同事们反馈“有时候 Claude 就是不调用它”。问题出在 description 字段不够精准。

她说:“帮我优化一下文案审核 Skill 的描述,让它在该被调用的时候一定能触发。”

Claude 先生成了 20 个测试查询——10 个应该触发(比如“帮我检查这篇推文是否符合品牌调性”),10 个不该触发(比如“帮我写一篇新推文”)。她在 HTML 页面里调整了两条边界模糊的查询,然后启动优化循环。五轮迭代后,触发准确率从 60% 提升到 95%。优化后的描述更具体地列出了适用场景和关键词,Claude 在该出手的时候终于不再“犹豫”了。