前面我们现场手搓了 3 个 Skill —— 数据查询、售楼问数、销售达成报告。 做出来不算完:怎么证明它们真的有用、真的比不用强?
用什么标准评?不只是"准不准",更要看"好不好"。
怎么分层评?指标设计 + 三层金字塔。
拿什么评?评测集决定产品出厂质量。
不过线,质量层再高都没有意义。
参考传统测试金字塔 —— Agent 评测同样分三层,越往下越确定、越频繁。
评测要靠客观指标,不靠主观感觉。Claude Code 把每次会话流水自动落成 JSONL —— 这是一份现成的评测数据源。
实际用时 · token 消耗 · Bash 调用次数
错误率 · 临时补丁次数 · 读源码次数
可重复 —— 同剧本能复跑;可追溯 —— 每个数字回得到原始会话。