
自定义评测界面:技能亮点
Written By

技能练习生
很多时候,我们调完模型、跑完测试,手里只剩下一堆几十万行的 JSON 或者是表格。想看看 AI 到底在哪儿说错了?想给它的回答打个分?对着这些乱糟糟的源文件,真是一眼都看不下去。
其实,你不需要为了这点事儿去专门请个前端工程师开发。要想高效地审核模型效果,一个好用的「标注界面」就是你的得力助手。
这就是「自定义评测界面」这个 Skill 派上用场的时候了。它能帮你把凌乱的对话记录秒变专业的在线评审后台,就像在自己电脑上搭建了一个高效的工作站。如果你想告别肉眼看 JSON 的日子,这个工具绝对值得你试试。
为什么选择这个 Skill?
[让你的模型评测数据「活起来」,像过电影一样审阅 AI 轨迹]
这个 Skill 的存在,是为了把数据标注从「繁重的手工活」变成「高效的选择题」。它通过自动渲染人类可读的页面,让你专注于判断 AI 的逻辑对错,而不是折腾数据格式。
解决的核心痛点
肉眼看 JSON 简直是折磨
这个 Skill 能自动根据内容类型(邮件、代码、表格)进行美化渲染,还支持 JSON 的树形折叠,让关键信息一眼可见。
每次打分都要翻表格、人工录入
内置了一键打分(Pass/Fail)和快捷键支持。你只需要专注看,然后按一下「1」或「2」,所有的评价、备注都会自动实时保存,效率提升不止一倍。
复杂的中间逻辑难以追溯
很多时候 AI 回答错了是因为中间环节出了问题。这个 Skill 支持展示完整的 Trace(追踪)链路,包括系统提示词(System Prompt)和中间的工具调用(Tool Calls),默认折叠,需要时随时点开,帮你精准定位问题。