AI 学习笔记(五十四):LLM 治理基线播种结果复盘、团队覆盖层漂移与复用评分再校准
上一期把治理资产带进了新周期:先给资产做复用评分,再处理跨团队继承冲突,最后按批次播种新周期基线。
但真正的风险不在“能不能播下去”,而在“播下去之后有没有被误认为已经稳定”。很多团队会在基线刚恢复的前两周看到几个正向指标,就把播种动作当成完成项;等到模型版本、业务流量、人工复核队列和团队策略覆盖层开始变化,才发现原来的评分已经跟真实运行脱节。
所以,新周期治理不能停在 seeded,还要继续回答三个问题:
- 播种结果到底是稳定生效,还是只在低风险样本里看起来正常
- 团队覆盖层有没有在执行中逐渐偏离共享基线
- 复用评分应该什么时候重新校准,避免旧分数变成长期豁免
1. 播种结果复盘,不是看有没有报错,而是看有没有进入真实约束
基线播种后的第一类误判,是把“没有明显事故”当成“基线已经有效”。
在 LLM 治理场景里,很多规则刚上线时不会立刻制造故障。它可能只是让高风险请求多走了一次人工复核,让低置信度答案多触发了一次降级,让某些边界样本被暂时拦在发布门禁之外。如果只看系统错误率、接口成功率或用户投诉,很容易得出过早乐观的结论。
我更倾向于把播种结果拆成三层看:
coverage_result:新基线是否真的覆盖了目标流量、目标团队和目标风险类型decision_result:它是否实际改变了风险判断、放行比例、复核比例和回滚触发operation_result:这些改变是否被团队理解、承接和持续执行
只有三层都能被证据支撑,才算完成了一次有效播种。
举个例子,一条“高风险生成内容必须保留证据回放”的基线被播种到三个团队。表面上看,三个团队都接入了字段,也都没有报错。但复盘时可能发现:A 团队在关键链路里真正写入了证据任务;B 团队只在低风险灰度里写入;C 团队虽然写入字段,却没有把它接到复盘流程里。
这三种状态不能被同一个 done 覆盖。它们应该被记录成不同的播种结果:
1 | baseline_seed_review: |
这个结论比“播种成功”更有用。它告诉团队:基线技术上已经进入链路,但运营承接还没有完全闭环。
2. 覆盖层漂移,通常不是一次性偏离,而是连续小例外堆出来的
上一期提到,跨团队继承治理资产时,应该区分共享基线和团队覆盖层。共享基线保证底线一致,团队覆盖层允许不同业务根据风险、流量和复核能力做局部调整。
问题是,覆盖层一旦缺少复盘,就很容易从“局部适配”变成“局部逃逸”。
最常见的漂移不是某个团队突然把规则删掉,而是连续发生几类小变化:
- 为了降低误杀,临时放宽阈值
- 为了赶发布,把人工复核改成事后抽检
- 为了处理特殊客户,把例外范围扩大
- 为了降低成本,减少证据回放采样
- 为了减少告警噪声,把低频风险从看板里隐藏
单看每一次调整,可能都能解释;连起来看,就可能已经偏离了共享基线的原始约束。
所以覆盖层需要一个 overlay_drift_check,至少比较四类差异:
1 | team_overlay_drift: |
这里的重点不是惩罚团队,而是把“团队适配”重新拉回可审计状态。覆盖层可以存在,但它必须说明自己为什么偏离、偏离多久、由谁负责、什么时候重新回到共享基线。
如果这些问题答不上来,它就不再是覆盖层,而是一条没有到期时间的例外通道。
3. 漂移判断要看方向,不只看差异大小
做覆盖层漂移检查时,一个容易犯的错误是只看差异大小。
比如某团队阈值比共享基线低 5%,另一个团队阈值高 20%。从数字上看,后者差异更大;但从风险上看,前者可能更危险,因为它放宽了风险准入,而后者只是更保守。
所以漂移要区分方向:
stricter_than_baseline:比共享基线更严格,主要关注成本和误杀looser_than_baseline:比共享基线更宽松,主要关注风险外溢different_control_path:不只是阈值不同,而是控制路径不同missing_feedback_loop:看起来执行了规则,但没有回流证据
其中最需要警惕的是后两类。阈值不同通常还容易比较,控制路径和反馈回路缺失却容易被配置表掩盖。
比如两个团队都声明“高风险输出需要复核”。A 团队是在发布前阻断,B 团队是发布后抽检。两者在文字上相似,但治理效果完全不同。前者能拦截风险,后者只能发现风险。
如果复盘时只看规则名称是否一致,就会误以为两边没有漂移。
4. 复用评分必须再校准,因为评分依赖的是当时的上下文
上一期给治理资产补了 reuse_score,但这个分数不能长期不动。
复用评分的本质不是资产的“永久质量分”,而是资产在某个时间点、某个上下文里的适用性判断。只要上下文变化,评分就应该重新校准。
需要触发再校准的信号通常包括:
- 模型版本升级或供应商路由变化
- 业务流量结构明显变化
- 人工复核能力上升或下降
- 误杀、漏放、回滚、投诉指标出现趋势变化
- 团队覆盖层累计偏离超过预设阈值
- 原 owner 离开或维护职责转移
再校准不一定意味着重新评估所有资产。更现实的做法是先建立一个 recalibration_queue,只把触发信号明确的资产放进去:
1 | reuse_score_recalibration: |
这样可以避免两个极端:一边是评分永远不变,导致旧规则被长期继承;另一边是每次周期变化都全量重评,最后没人愿意维护治理资产。
5. 再校准结果要能改变默认动作
复用评分如果不能改变默认动作,就会变成形式主义。
我会要求每次再校准至少输出一个动作变化:
- 从
reuse_directly降到reuse_with_guardrail - 从
reuse_with_guardrail降到pilot_before_reuse - 从
pilot_before_reuse升到reuse_with_guardrail - 从任意状态转为
archive_only - 保持原动作,但补充明确的证据说明
其中“保持原动作”也不能只写“无变化”。它必须说明为什么无变化:是指标稳定、覆盖层无漂移、owner 仍清晰,还是风险样本不足所以暂不调整。
如果一个治理动作长期无法被评分影响,那说明评分维度设计错了,或者组织根本没有把评分当作决策输入。
6. 一个更完整的新周期闭环
把这几篇串起来,新周期治理资产的闭环可以写成一条更完整的链路:
1 | governance_cycle: |
这条链路里,review 不是可选补充,而是新周期治理能否持续有效的关键层。
没有复盘,播种只是一次发布动作;没有漂移检查,覆盖层会慢慢变成例外堆积;没有再校准,复用评分会从治理工具退化成归档字段。
7. 小结
这篇继续沿着 LLM 治理资产的新周期实践往后推了一步。
我的核心判断是:播种之后的治理,比播种本身更容易被忽略。团队不应该只记录“基线已播种”,而应该记录播种是否覆盖真实流量、是否改变真实决策、是否被运营流程承接。
团队覆盖层也不应该被当成一次性配置,而应该持续检查漂移方向、漂移幅度和反馈回路是否还在。复用评分更不能成为永久标签,它必须随着模型、流量、复核能力和 owner 变化而再校准,并且能够实际改变默认治理动作。
下一篇我准备继续写治理资产进入更大范围复用后的问题:跨团队复用效果如何量化,哪些指标能证明治理投入真的降低了风险,以及当复用收益和执行成本冲突时,团队应该怎样做取舍。