AI 学习笔记(四十五):LLM 阈值误判复盘闭环、评分模型校准节奏与季度策略退役/继任规则

上一篇我们把阈值变更影响评分、自动扩流/回退守门规则,以及季度动作优先级排程落成了执行框架。

但框架跑起来后,团队通常会遇到三个新问题:

  1. 阈值误判发生后,复盘会写结论,但相同误判还是反复出现
  2. 评分模型上线后长期不校准,分数逐渐偏离真实风险
  3. 季度治理策略越积越多,没人定义什么时候该退役、谁来继任

这篇把这三件事收敛成可执行闭环。

1. 先定义“阈值误判”事件,不要只记“事故”

很多团队只有重大故障才触发复盘,导致大量“没出大事但判断错了”的信号被忽略。

建议把阈值误判也作为一级治理事件,至少覆盖三类:

  1. false_scale_up: 本不该扩流却扩了,造成负载或质量恶化
  2. false_rollback: 本可继续观察却过早回退,造成收益损失或反复变更
  3. false_stability: 指标看似稳定但风险在下游累积,延迟爆发

只要进入其中任一类,就必须进入误判复盘闭环,而不是等到升级故障。

2. 误判复盘闭环必须包含“可验证修复项”

复盘最常见失败是停留在“原因分析”,没有把修复变成可验证动作。

建议每次误判复盘固定输出四项:

  1. misjudgment_type:误判类型和触发场景
  2. decision_snapshot:当时扩流/回退决策依据与指标快照
  3. missing_signals:当时缺失或被忽略的关键信号
  4. actionable_fixes:能在下个周期验证的修复项(阈值、权重、守门条件、runbook)

关键要求是:每条修复项都必须有 ownerdue_dateverification_metric,否则不算闭环项。

3. 给评分模型设定固定校准节奏,不靠“感觉偏了再调”

影响评分模型一旦长期不校准,会出现两类偏移:

  1. risk_underestimate:真实高风险被低分化,导致扩流过快
  2. risk_overestimate:中低风险长期被高分化,导致治理效率下降

建议最小校准节奏:

  1. 周度:检查最近误判样本在各分段(低/中/高)的分布漂移
  2. 双周:抽样复核高分与低分案例,确认是否与真实后果一致
  3. 季度:执行一次权重重估与阈值分段回放验证

如果连续两个周期出现“同类误判集中在同一分段”,要触发强制校准,不等季度窗口。

4. 校准不是改参数,而是改“决策后果一致性”

很多团队把校准理解成“把某个阈值从 0.7 调到 0.75”。

更稳妥的口径是:校准后,模型分段与治理动作后果是否仍一致。

可以用一个最小一致性检查:

  1. 高分变更是否仍对应更高的人工审阅占比和更严格守门路径
  2. 低分变更是否仍可在安全前提下进入自动扩流
  3. 回退触发样本是否主要集中在预期高风险段

如果这三条不一致,即使模型指标看起来“更平滑”,也不应视为成功校准。

5. 季度策略必须有退役规则,否则策略债务会失控

治理策略会自然膨胀:每次事件后加一条规则,但很少删。

建议每个季度都执行策略退役审查,至少判断三件事:

  1. still_effective:该策略最近两个季度是否仍显著降低风险
  2. operational_cost:执行成本是否已经超过收益
  3. rule_overlap:是否已被新策略覆盖或与其他规则冲突

满足“效果低 + 成本高 + 重叠高”的策略应进入退役候选,而不是永久保留。

6. 退役必须配套继任策略,避免治理真空

策略退役不能只做删除动作,还要回答“谁来接班”。

建议定义继任规则:

  1. direct_successor: 由新策略直接替代,映射清晰
  2. merged_successor: 与相邻策略合并,减少规则碎片
  3. manual_fallback: 暂无自动继任时,临时转人工守门并设置截止日期

没有继任映射的退役申请默认不通过,避免在关键链路形成控制空洞。

7. 最小治理模板

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
threshold_governance_continuous_loop:
misjudgment_postmortem:
triggers:
- false_scale_up
- false_rollback
- false_stability
required_outputs:
- misjudgment_type
- decision_snapshot
- missing_signals
- actionable_fixes
actionable_fix_fields:
- owner
- due_date
- verification_metric
scoring_model_calibration:
cadence:
weekly: segment_drift_check
biweekly: high_low_case_review
quarterly: weight_reestimate_and_replay
force_calibration_condition:
- repeated_misjudgment_in_same_band_for_two_cycles
strategy_lifecycle:
retirement_review:
- still_effective
- operational_cost
- rule_overlap
succession_modes:
- direct_successor
- merged_successor
- manual_fallback_with_deadline

8. 一周执行清单

  1. 第 1 天:把 false_scale_up/false_rollback/false_stability 接入统一误判事件台账
  2. 第 2-3 天:为评分模型建立周度漂移检查和双周抽样复核
  3. 第 4-5 天:完成一次季度权重回放校准,并输出差异报告
  4. 第 6-7 天:对现有策略做退役候选筛选并补齐继任映射

治理进入这个阶段后,重点不再是“策略有没有”,而是“策略是否持续有效、可被替换、可被验证”。

当误判能闭环、模型能定期校准、策略有退役与继任规则,团队才不会在治理规模增长时重新掉回经验决策。

下一篇学习笔记我会继续写:阈值治理季度评审看板、跨团队争议裁决机制与策略变更准入门禁收敛

本文永久链接: https://www.mulianju.com/learning-notes/ai-learning-notes-llm-threshold-misjudgment-postmortem-calibration-cadence-strategy-retirement-succession/