不要让 AI 批改自己的试卷 —— 一次 16 处遗漏的协作复盘
不要让 AI 批改自己的试卷 —— 一次 16 处遗漏的协作复盘 Tokscale 是一个开源的 AI 编程助手用量统计工具。它扫描本地各 AI 编程助手(Claude Code、Codex CLI、Gemini CLI 等)的会话文件,解析每次对话的 token 消耗量并汇总成本。技术上,Rust Core 负责解析各家助手的本地会话格式并提取 token 数据,TypeScript CLI/TUI/Frontend 负责过滤、展示和提交统计结果。 TypeScript 编译零错误,clippy 零 warning,CLI 返回正确数据。AI 报告「代码完成」。 submit 功能完全失效。前端校验拒绝含新数据源的提交请求。文档多处描述与代码不一致。这些问题在首轮验收中全部隐形——不是检查者忽略,而是现有验证手段从结构上无法触及。 测试全绿只证明覆盖了多少,不证明质量。一个新增枚举值需要在 26 个触点注册,约 8 个缺失会触发编译错误,剩余 18 个全部遗漏也编译照过、测试照绿,功能链路静默断裂在中间层。遗漏是一种 absence——在缺乏穷尽匹配约束的代码层中,absence 不报错。 本文解剖一个真实任务:为 Tokscale 添加第 10 个数据源(Kimi),28 个文件修改、约 300 行新增 Rust 代码、横跨 6 个架构层。AI 首轮交付后,第一轮验收发现 0 个问题,第二轮发现 12 处遗漏,第三轮追出 3 处——每一层用不同的验证方法捕获前一层的盲区。 本文同时复盘了每一轮验收背后的 Prompt——人类如何提问,直接决定了 AI 能暴露多少盲区。同一个 AI,面对不同的提问方式,交出的答案质量天差地别。 读完本文你会了解:测试全绿为什么不等于功能完整;四层互补的验收手段如何系统性地捕获遗漏;哪些 Prompt 策略有效、哪些无效;以及如何在设计阶段就预防大部分问题。 ...
