自定义评测界面：技能亮点

很多时候，我们调完模型、跑完测试，手里只剩下一堆几十万行的 JSON 或者是表格。想看看 AI 到底在哪儿说错了？想给它的回答打个分？对着这些乱糟糟的源文件，真是一眼都看不下去。

其实，你不需要为了这点事儿去专门请个前端工程师开发。要想高效地审核模型效果，一个好用的「标注界面」就是你的得力助手。

这就是「自定义评测界面」这个 Skill 派上用场的时候了。它能帮你把凌乱的对话记录秒变专业的在线评审后台，就像在自己电脑上搭建了一个高效的工作站。如果你想告别肉眼看 JSON 的日子，这个工具绝对值得你试试。

[让你的模型评测数据「活起来」，像过电影一样审阅 AI 轨迹]

这个 Skill 的存在，是为了把数据标注从「繁重的手工活」变成「高效的选择题」。它通过自动渲染人类可读的页面，让你专注于判断 AI 的逻辑对错，而不是折腾数据格式。

这个 Skill 能自动根据内容类型（邮件、代码、表格）进行美化渲染，还支持 JSON 的树形折叠，让关键信息一眼可见。

内置了一键打分（Pass/Fail）和快捷键支持。你只需要专注看，然后按一下「1」或「2」，所有的评价、备注都会自动实时保存，效率提升不止一倍。

很多时候 AI 回答错了是因为中间环节出了问题。这个 Skill 支持展示完整的 Trace（追踪）链路，包括系统提示词（System Prompt）和中间的工具调用（Tool Calls），默认折叠，需要时随时点开，帮你精准定位问题。