
技能评测器:快速入门
Written By

技能练习生
假设你已经手握一个写好的 Skill(比如帮你整理会议纪要的小助手),现在想看看它在实战中到底表现如何。不需要复杂的配置,一句话就能开启“体检模式”。
准备工作
只要你的 Skill 文件夹里有 SKILL.md,并且你已经安装了 Skill Creator 就可以开始啦。不需要写任何代码,放轻松。
第一份体检报告
试着直接对 Claude 说这句话:
帮我测试一下我的会议纪要 Skill,找三个不同风格的录音文稿来试试效果。
接下来会发生什么?
在你喝杯水的功夫,Claude 会在背后帮你完成这一连串动作:
- 量身定制题库:它会根据 Skill 的用途,自动设计 2-3 个有代表性的测试任务,存进
evals/evals.json。 - 两路同跑:它会同时请两个 Agent 出来工作。一个带着你的 Skill 认真干活(with_skill),另一个则是“裸跑”的对照组(without_skill)。
- 公正打分:任务结束,专门的“阅卷老师”(Grader Agent)会按照约定的规则(比如:有没有漏掉待办事项?格式对不对?)逐条打分,并在没过的地方贴上截图般的证据。
- 送报告上门:成果会汇总成一个 Eval Viewer 网页。你可以在左边看具体干得怎么样,右边看整体的数据对比。
这一步的意义
你再也不用手动去喂 prompt,也不用肉眼去猜“新版本是不是更强了”。几分钟内,你会得到一份全方位的对比数据:哪些地方是强项,哪些地方还有明显的坑。你在网页上的反馈就是它的“补药”,Claude 会根据这些建议自动帮你把 Skill 修补得更完美。这就是迭代循环的完美起点。