技能评测器:快速入门

技能评测器:快速入门

Written By
技能练习生
技能练习生

假设你已经手握一个写好的 Skill(比如帮你整理会议纪要的小助手),现在想看看它在实战中到底表现如何。不需要复杂的配置,一句话就能开启“体检模式”。

准备工作

只要你的 Skill 文件夹里有 SKILL.md,并且你已经安装了 Skill Creator 就可以开始啦。不需要写任何代码,放轻松。

第一份体检报告

试着直接对 Claude 说这句话:

帮我测试一下我的会议纪要 Skill,找三个不同风格的录音文稿来试试效果。

接下来会发生什么?

在你喝杯水的功夫,Claude 会在背后帮你完成这一连串动作:

  1. 量身定制题库:它会根据 Skill 的用途,自动设计 2-3 个有代表性的测试任务,存进 evals/evals.json
  2. 两路同跑:它会同时请两个 Agent 出来工作。一个带着你的 Skill 认真干活(with_skill),另一个则是“裸跑”的对照组(without_skill)。
  3. 公正打分:任务结束,专门的“阅卷老师”(Grader Agent)会按照约定的规则(比如:有没有漏掉待办事项?格式对不对?)逐条打分,并在没过的地方贴上截图般的证据。
  4. 送报告上门:成果会汇总成一个 Eval Viewer 网页。你可以在左边看具体干得怎么样,右边看整体的数据对比。

这一步的意义

你再也不用手动去喂 prompt,也不用肉眼去猜“新版本是不是更强了”。几分钟内,你会得到一份全方位的对比数据:哪些地方是强项,哪些地方还有明显的坑。你在网页上的反馈就是它的“补药”,Claude 会根据这些建议自动帮你把 Skill 修补得更完美。这就是迭代循环的完美起点。