自定义评测界面 Skill 教程

将凌乱的 LLM 评测记录秒变专业标注网页，让模型评估变得高效、直观且专业。

做 AI 产品的评估，最头疼的不是模型跑得慢，而是回来的数据「看不过来」。几千条对话记录一股脑堆在 JSON 文件里，想找个特定错误就像大海捞针。这种肉眼审核的方式不仅累，而且极易出错，更没法形成标准化的结论。

「自定义评测界面」这个 Skill 就是为了终结这种低效而生的。它能帮你把冷冰冰的数据一键转化为功能完备的浏览器界面，支持打分、备注和全链路追踪。它让评估模型不再是一项枯燥的任务，而是一个精准、流畅、甚至带点科技感的「管理决策」过程。

教程目录

建议你从这里开始：先通过快速入门体验从 JSON 到漂亮网页的 5 分钟转化快感。如果你想知道它如何支撑起上千条数据的流畅标注，功能详解会带你领略渲染引擎与键盘流操作的魅力。而应用案例则为你展示了从上线前排雷到多人协作汇总的实战经验。

想知道背后它是如何处理数据流的？工作原理章节揭示了从本地加载到实时保存的完整逻辑。对于性能、隐私等高频顾虑，我们在常见问题中准备好了详尽的解答。

你会用到它的时刻

无论是你在深夜紧急迭代模型，需要快速看一波效果对比；还是在周会上要向老板展示 AI 的实际表现，需要一个拿得出手的演示 Demo，它都能即刻变出一个专业的仪表盘。甚至当你需要带团队一起进行「黄金数据」标注，想要统一大家的衡量标准时，它更是保证数据口径一致、提高标注产出比的神兵利器。

在使用过程中，请确保你的数据源格式规范，并建议定期备份你的标注结果 CSV 文件，以确保数据链路的可追溯性。现在，就从你的第一份 JSON 文件开始，搭建属于你的 AI 评测中心吧。