自定义评测界面：功能详解

想要让繁琐的评审工作变得高效，靠的不是意志力，而是一个懂你的工具。这个 Skill 围绕「看、记、翻、究」四个环节，全方位提升了你的评审体验。

评审的第一步是「看」。如果对话里的代码没有高亮，Markdown 还是源码状态，那效率就打了一半折扣。

系统会自动识别数据里的各种「方言」。如果是邮件，它会模拟出真实的邮件预览；如果是代码，它会带上你熟悉的语法高亮；如果是表格，它会渲染成规整的 HTML 表格。那些层级极深的 JSON，点击一下就能展开或收起，让视觉焦点始终落在关键内容上。

看到问题后，你的下一步操作应该是「最少化」的。界面右侧固定了三个最核心的按钮：通过（Pass）、失败（Fail）和待定（Defer）。

如果你选了「Fail」，下方的备注框会自动等待你输入改进建议。每一笔记录都会被「自动保存（Auto-save）」，哪怕你误关了浏览器，之前的辛勤劳动也不会白费。随着你标注的积累，系统还会实时帮你计算：还有多少个没看？目前的通过率是多少？

如果你要审阅 100 多条记录，频繁切换鼠标会让手腕酸痛。这就是为什么要引入键盘流。

利用数字键 1 和 2 快速表态，用方向键或 A/D 左右横跳。这种「盲操」模式能让你进入心流状态，在不知不觉中完成大批量的数据清理。对于那些拿不准的，按个 U 撤销，或按个 D 标记稍后处理，节奏完全掌握在你手中。

有时候 AI 给出了错误答案，并不是最后一步错了，而是在调用内部搜索扩展或中间计算时偏离了航道。

界面里藏着完整的「剥洋葱」功能。你可以随时点开折叠的系统提示词（System Prompt），查看那次请求背后的所有工具调用（Tool Calls）细节。你可以清楚地看到 AI 当时是怎么想的、看到了什么上下文（Context），从而彻底搞清楚问题的根源。