自定义评测界面:功能详解

自定义评测界面:功能详解

Written By
技能练习生
技能练习生

想要让繁琐的评审工作变得高效,靠的不是意志力,而是一个懂你的工具。这个 Skill 围绕「看、记、翻、究」四个环节,全方位提升了你的评审体验。

懂行的数据渲染

评审的第一步是「看」。如果对话里的代码没有高亮,Markdown 还是源码状态,那效率就打了一半折扣。

系统会自动识别数据里的各种「方言」。如果是邮件,它会模拟出真实的邮件预览;如果是代码,它会带上你熟悉的语法高亮;如果是表格,它会渲染成规整的 HTML 表格。那些层级极深的 JSON,点击一下就能展开或收起,让视觉焦点始终落在关键内容上。

拿起即用的标注工具

看到问题后,你的下一步操作应该是「最少化」的。界面右侧固定了三个最核心的按钮:通过(Pass)、失败(Fail)和待定(Defer)。

如果你选了「Fail」,下方的备注框会自动等待你输入改进建议。每一笔记录都会被「自动保存(Auto-save)」,哪怕你误关了浏览器,之前的辛勤劳动也不会白费。随着你标注的积累,系统还会实时帮你计算:还有多少个没看?目前的通过率是多少?

像打游戏一样的快捷驾驶

如果你要审阅 100 多条记录,频繁切换鼠标会让手腕酸痛。这就是为什么要引入键盘流。

利用数字键 1 和 2 快速表态,用方向键或 A/D 左右横跳。这种「盲操」模式能让你进入心流状态,在不知不觉中完成大批量的数据清理。对于那些拿不准的,按个 U 撤销,或按个 D 标记稍后处理,节奏完全掌握在你手中。

掘地三尺的「洋葱式」追溯

有时候 AI 给出了错误答案,并不是最后一步错了,而是在调用内部搜索扩展或中间计算时偏离了航道。

界面里藏着完整的「剥洋葱」功能。你可以随时点开折叠的系统提示词(System Prompt),查看那次请求背后的所有工具调用(Tool Calls)细节。你可以清楚地看到 AI 当时是怎么想的、看到了什么上下文(Context),从而彻底搞清楚问题的根源。