
技能评测器:技能亮点

你是不是也经历过:花了两个小时精心打磨一个 Skill,改了三遍措辞,调了五次结构,自己试了两个 prompt 觉得“挺完美”。结果同事一用,场面瞬间失控:格式是乱的,关键步骤丢了,输出的效果跟预想差了十万八千里。
其实,这不怪你。我们人类的注意力有限,手动测两下很难盖全所有坑。
技能评测器就是帮你把“感觉还行”变成“数据说话”的质检专家。它能帮你自动跑批量测试、自动打分、自动生成报告。你只需要在浏览器里翻翻结果、写几句反馈,它就能乖乖去改进。整个过程就像给你的 Skill 开了“体检绿通”:哪里强、哪里弱、跟不带 Skill 时的“裸奔”相比改进了多少,全都一目了然。
让你的作品从“能跑”升级到“职业”
大多数 Skill 作者都是各自领域的业务专家——你熟悉业务逻辑,但可能不习惯去验证 Skill 在新模型上表现如何,或者该触发的时候为什么哑火。评测器把软件开发的测试思维变成了简单的一键操作,不需要你写一行代码。
告别“玄学”测试,拥抱客观数据
以前我们手动测,三五个场景就累了,还容易对自己亲手写的 Skill “自带滤镜”。评测器一次性跑十几个用例,每条规则都自动对齐,没过就是没过,证据是什么写得清清楚楚。像 Anthropic 自家的 PDF Skill,就是通过这种方式找出了在特定坐标定位上的小瑕疵,然后才修复到完美的。
升级不迷茫,新旧版本一眼看穿
没有对比,每次改动或模型升级都像是在迷雾里开车。评测器最擅长玩“找不同”:它每轮都会跑“带 Skill”和“不带 Skill”两组对照,自动算出通过率、耗时和 Token 花费的变化。这能帮你发现一个很有趣的事:如果哪天“裸奔组”的表现追上了“带 Skill 组”,说明模型已经悄悄变聪明了,你这个 Skill 或许可以光荣退休。
拿捏触发时机,让 Claude 随叫随到
最尴尬的不是 Skill 写得不好,而是 Claude 根本不调用它。这通常是因为描述写得太客气了。评测器的优化模块会模拟几十个真实对话场景,反复试探 Claude 的反应,然后自动帮你迭代描述,直到触发率达到 95% 以上。Claude 终于不再犹豫,在你需要的时候总是准时上线。