AI 学习笔记(四十五):LLM 阈值误判复盘闭环、评分模型校准节奏与季度策略退役/继任规则
上一篇我们把阈值变更影响评分、自动扩流/回退守门规则,以及季度动作优先级排程落成了执行框架。
但框架跑起来后,团队通常会遇到三个新问题:
- 阈值误判发生后,复盘会写结论,但相同误判还是反复出现
- 评分模型上线后长期不校准,分数逐渐偏离真实风险
- 季度治理策略越积越多,没人定义什么时候该退役、谁来继任
这篇把这三件事收敛成可执行闭环。
1. 先定义“阈值误判”事件,不要只记“事故”
很多团队只有重大故障才触发复盘,导致大量“没出大事但判断错了”的信号被忽略。
建议把阈值误判也作为一级治理事件,至少覆盖三类:
false_scale_up: 本不该扩流却扩了,造成负载或质量恶化false_rollback: 本可继续观察却过早回退,造成收益损失或反复变更false_stability: 指标看似稳定但风险在下游累积,延迟爆发
只要进入其中任一类,就必须进入误判复盘闭环,而不是等到升级故障。
2. 误判复盘闭环必须包含“可验证修复项”
复盘最常见失败是停留在“原因分析”,没有把修复变成可验证动作。
建议每次误判复盘固定输出四项:
misjudgment_type:误判类型和触发场景decision_snapshot:当时扩流/回退决策依据与指标快照missing_signals:当时缺失或被忽略的关键信号actionable_fixes:能在下个周期验证的修复项(阈值、权重、守门条件、runbook)
关键要求是:每条修复项都必须有 owner、due_date、verification_metric,否则不算闭环项。
3. 给评分模型设定固定校准节奏,不靠“感觉偏了再调”
影响评分模型一旦长期不校准,会出现两类偏移:
risk_underestimate:真实高风险被低分化,导致扩流过快risk_overestimate:中低风险长期被高分化,导致治理效率下降
建议最小校准节奏:
- 周度:检查最近误判样本在各分段(低/中/高)的分布漂移
- 双周:抽样复核高分与低分案例,确认是否与真实后果一致
- 季度:执行一次权重重估与阈值分段回放验证
如果连续两个周期出现“同类误判集中在同一分段”,要触发强制校准,不等季度窗口。
4. 校准不是改参数,而是改“决策后果一致性”
很多团队把校准理解成“把某个阈值从 0.7 调到 0.75”。
更稳妥的口径是:校准后,模型分段与治理动作后果是否仍一致。
可以用一个最小一致性检查:
- 高分变更是否仍对应更高的人工审阅占比和更严格守门路径
- 低分变更是否仍可在安全前提下进入自动扩流
- 回退触发样本是否主要集中在预期高风险段
如果这三条不一致,即使模型指标看起来“更平滑”,也不应视为成功校准。
5. 季度策略必须有退役规则,否则策略债务会失控
治理策略会自然膨胀:每次事件后加一条规则,但很少删。
建议每个季度都执行策略退役审查,至少判断三件事:
still_effective:该策略最近两个季度是否仍显著降低风险operational_cost:执行成本是否已经超过收益rule_overlap:是否已被新策略覆盖或与其他规则冲突
满足“效果低 + 成本高 + 重叠高”的策略应进入退役候选,而不是永久保留。
6. 退役必须配套继任策略,避免治理真空
策略退役不能只做删除动作,还要回答“谁来接班”。
建议定义继任规则:
direct_successor: 由新策略直接替代,映射清晰merged_successor: 与相邻策略合并,减少规则碎片manual_fallback: 暂无自动继任时,临时转人工守门并设置截止日期
没有继任映射的退役申请默认不通过,避免在关键链路形成控制空洞。
7. 最小治理模板
1 | threshold_governance_continuous_loop: |
8. 一周执行清单
- 第 1 天:把
false_scale_up/false_rollback/false_stability接入统一误判事件台账 - 第 2-3 天:为评分模型建立周度漂移检查和双周抽样复核
- 第 4-5 天:完成一次季度权重回放校准,并输出差异报告
- 第 6-7 天:对现有策略做退役候选筛选并补齐继任映射
治理进入这个阶段后,重点不再是“策略有没有”,而是“策略是否持续有效、可被替换、可被验证”。
当误判能闭环、模型能定期校准、策略有退役与继任规则,团队才不会在治理规模增长时重新掉回经验决策。
下一篇学习笔记我会继续写:阈值治理季度评审看板、跨团队争议裁决机制与策略变更准入门禁收敛。