技能评测器：场景案例

下面几个场景，来自不同岗位的人在不同阶段使用评测器的真实体验。你大概率会在其中找到自己的影子。

场景 1：修复 PDF Skill 的定位偏移问题

这是一个来自 Anthropic 内部的真实案例。他们的 PDF Skill 在处理“可填写表单”时表现不错，但一碰到非可填写表单（没有预定义字段，需要在精确坐标上放置文字），就经常定位偏移。

团队给评测器喂了几份不同格式的非可填写表单作为测试用例，断言包括“文字必须与表单标签对齐”“坐标误差不超过 5 像素”。评测精确地隔离出了失败点：Skill 在缺少字段定义时无法正确锚定位置。修复方案是改为基于提取的文本坐标来定位，而非依赖字段元数据。修复后重跑评测，所有测试用例全部通过。

这个案例说明了一件事：有些 bug 靠手动试两个文件很难复现，但评测器的系统化覆盖能把它逼出来。

场景 2：产品经理验收新写的客服话术 Skill

小李给客服团队写了一个话术生成 Skill，能根据客户投诉类型自动拟回复模板。她自己试了两个投诉场景觉得效果不错，但心里没底：退货、物流延迟、质量问题这些高频场景全覆盖了吗？语气会不会太生硬？

她对 Claude 说：“帮我测试一下客服话术 Skill，覆盖退货、物流延迟、产品质量投诉这三类场景，每类各来一个典型案例。”

Claude 跑完三组对比测试后，Eval Viewer 弹出来。小李翻到物流延迟那组，发现 Skill 版本的回复漏掉了“预计到达时间”这个关键信息，而裸跑版反而提到了。她在批注栏写下“物流场景必须包含预计到达时间”，提交反馈。Claude 读取后在 Skill 里加了一条规则，重跑测试，这次三个场景全部通过。整个过程不到 20 分钟。

场景 3：运营总监对比新旧两版数据周报 Skill

老王的团队一直在用一个数据周报 Skill，但最近有人反映图表样式不够统一。他让 Claude 重写了一版，想知道新版到底有没有进步。

他说：“帮我对比一下新版和旧版的周报 Skill，用上周和本周的真实销售数据各跑一遍。”

Claude 先把旧版 Skill 快照保存，然后同时跑新版和旧版。Benchmark 标签页显示新版通过率从 67% 提升到 90%，但 Token 用量多了 40%。Analyzer 的备注指出“图表标题一致性”这条断言在新版全部通过，旧版全部失败，说明新版确实解决了核心问题。老王看完觉得 Token 的增加可以接受，拍板切换到新版。

场景 4：HR 用盲评挑选最佳面试评估 Skill

人力资源部有两位同事分别写了面试评估 Skill，都声称自己的更好用。HR 负责人不想凭主观印象做决定，于是启动了盲评模式。

她对 Claude 说：“用三份模拟面试记录，把两个面试评估 Skill 做一次盲评对比，我不想知道哪个是谁写的。”

Comparator Agent 收到两份标记为 A 和 B 的评估报告，在不知道来源的情况下打分。结果 A 在“评分标准覆盖度”和“防偏见检查”两个维度胜出，B 在“语言流畅度”上更好。Analyzer 揭盲后发现 A 是在 References 里放了完整的岗位评分标准，B 没有。改进建议很明确：B 需要补上评分标准作为参考资料。最终团队合并了两者的优点，产出了一个更强的版本。

场景 5：市场经理优化 Skill 的触发描述

市场部的文案审核 Skill 写好了，功能也验证过了，但同事们反馈“有时候 Claude 就是不调用它”。问题出在 description 字段不够精准。

她说：“帮我优化一下文案审核 Skill 的描述，让它在该被调用的时候一定能触发。”

Claude 先生成了 20 个测试查询——10 个应该触发（比如“帮我检查这篇推文是否符合品牌调性”），10 个不该触发（比如“帮我写一篇新推文”）。她在 HTML 页面里调整了两条边界模糊的查询，然后启动优化循环。五轮迭代后，触发准确率从 60% 提升到 95%。优化后的描述更具体地列出了适用场景和关键词，Claude 在该出手的时候终于不再“犹豫”了。