AI 学习笔记(五十一):LLM 治理基线变更效果回看、复开信号预警与年度治理资产沉淀
上一篇把季度收口写到了策略退出、承诺清理和下一周期准入基线重建。
但基线改完并不代表治理动作真的结束了。规则从 sample_review_only 改成 sample_review_plus_canary_metrics,或者某个高风险场景重新提高准入门槛,接下来都会碰到三个更现实的问题:改完以后到底有没有用,风险是不是又在别的地方冒头,一年过去以后这些规则和证据还剩下多少可复用价值。
很多团队的问题不出在“没有做治理”,而是做完以后没人持续看效果。季度会上看起来动作都关闭了,半年后同类问题又回来;每次复盘都能找到文档,真到下一轮准入评审时却没人敢直接复用,因为谁也说不清这些资产现在还准不准。
这篇继续沿着 LLM 治理闭环往后写,重点放在三件事:
- 基线变更后,怎么回看效果才不至于只看一眼报表
- 哪些复开信号值得提前预警,不必等到线上事故才重新立项
- 年度维度上,哪些治理资产值得沉淀,哪些应该干脆清掉
1. 基线变更效果回看,先看判断有没有落到真实场景上
我不太相信那种只看全局平均值的“变更复盘”。
准入基线调整影响的往往是某一类流量、某一组场景、某一种变更动作。你把所有业务线的平均值摊在一起看,很容易得到一个看似平稳的结论,但真正该盯的高风险区域早就被冲淡了。
所以我会先把回看对象钉死在原始变更记录上。也就是先回答三件事:
- 当时改的是哪条基线
- 它作用在哪类场景
- 当时想压下去的风险是什么
没有这三条,后面的效果回看基本都会跑偏。
比如某次基线收紧,是因为高流量场景里的 prompt 变更导致复开率抬头。那回看时就应该继续盯高流量场景、同类 prompt 变更和对应的复开指标,而不是把全部模型改动、全部业务线、全部上线结果揉成一张总表。
治理回看不是做季度汇报,它更像一次定点复查。规则改动命中了什么,就继续回去看什么。
2. 效果回看要同时看收益、代价和绕行
一条基线改动上线以后,我通常会同时看三组结果。
第一组是预期收益。比如复开率有没有下来,回滚次数有没有减少,人工补救是不是变少了。这部分最容易想到。
第二组是副作用。规则收紧以后,评审排队时间会不会拉长,低风险改动会不会被一并卡住,owner 会不会开始抱怨“每次都得多走一层流程”。如果只看风险下降,不看这部分,规则很容易越改越重。
第三组是绕行。这个更关键。很多基线改动表面上看效果不错,实际上只是把团队逼到别的通道里去了。比如大家不再走正式变更入口,而是改成拆小包、借旧白名单、走临时例外,报表会短期变好,治理质量却在变差。
我会把回看记录做成这种短格式:
1 | baseline_effect_review: |
我喜欢这种记录,因为它逼着人承认一个事实:规则效果从来不是单维度的。风险下降了,但绕行上升了,这不算真正稳定。
3. 复开信号要盯“还没出事故,但味道已经不对”的地方
很多团队把复开理解成“同类事故又发生了”。这个定义太晚了。
对治理来说,真正有价值的复开信号,通常出现在事故前面一点点。它们不一定足以立刻证明风险已经回来,但会明显让人觉得场面开始变形。
我会优先盯这几类信号:
- 同一类场景的临时例外重新变多
- 原本已经退出主线的人工兜底又被频繁拉回来
- 某条基线收紧后,相关团队开始持续申请放宽
- 相同根因的问题在不同业务线上重复冒头
- 数据口径没坏,但 owner 开始不再信那组数据
第五类很容易被忽视。指标还在绿区,可是一线 owner 已经不太愿意拿它做判断,这通常说明指标要么不再代表真实风险,要么被新的业务形态绕开了。
治理预警要有一点“闻味道”的能力。并不是所有事情都等得到一条明确报警。
4. 复开预警不要直接升级成大动作,先分层处理
我不建议看到一点复开迹象就重新开一轮大治理动作。
更稳的做法是分三层:
observe:先记录信号,确认是不是偶发波动verify:做小范围抽样和根因复核,判断旧风险是否真的回来了reopen:确认风险重新形成,再把策略拉回治理主线
这个分层很重要。因为很多复开信号后来证明只是季节性波动、流量结构变化,或者某个业务线短期操作不稳。如果一有波动就全面升级,治理体系会越来越敏感,最后谁都不信它。
我一般会给预警补一条最小判断:
1 | reopen_signal: |
这条记录的价值不在字段本身,而在于它把“感觉不太对”变成了一个可以跟踪的对象。后面如果信号消失,就正常关闭;如果继续累积,再升级处理。
5. 年度治理资产沉淀,不是把所有文档都归档
一年下来,治理团队手里会堆很多东西:准入规则、例外台账、复盘结论、退出策略、临时检查表、评审口径、季度看板截图。
这里最容易犯的错,是把它们一股脑全留着,然后默认“以后应该有用”。结果到了下一年度,真正能复用的找不出来,过期资产倒是一大堆。
我会把年度资产只留四类:
- 还在生效的准入基线和变更记录
- 已经验证过、明年还会继续用的证据模板
- 虽然退出,但以后可能复开的策略复盘
- 高风险例外和跨周期承诺的年度清算结果
其他内容如果只是过程噪音,我会直接删或者降到冷存档。
年度沉淀的目标不是“资料完整”,而是让下一轮治理启动时,团队能很快找到三个东西:现在默认按什么规则判断,出了同类问题该看什么证据,以前哪些坑已经踩过。
找不到这三个东西,文档再多也只是仓库负担。
6. 治理资产要有失效日期和接手人,不然第二年还是烂账
治理资产一旦跨年度保留,就不能只写“已沉淀”。
我会要求每类资产至少有两个元信息:一个失效日期,一个接手人。原因很简单,今年有效的口径,明年不一定还成立;没有人负责,资产就只会静静躺在那里,直到有人误用它。
我习惯保留一个年度索引:
1 | governance_asset: |
这能解决两个老问题。
一个是资产过期了却没人发现。另一个是大家知道它存在,但不知道该在什么环节拿出来用。
真正有用的治理沉淀,不只是“保留”,而是带着使用入口和过期边界一起保留。
7. 一周执行清单
- 第 1 天:盘点最近一个周期内的所有基线调整,补齐影响范围、目标风险和回看窗口
- 第 2 天:为每条基线加上收益、副作用、绕行三组回看字段
- 第 3-4 天:建立复开信号表,只记录高价值预警,不追求把所有波动都收进去
- 第 5 天:把年度资产收敛成基线包、证据模板、退出复盘、承诺清算四类
- 第 6-7 天:为保留资产补
owner、valid_until和复用入口,删掉已经失效的旧口径
治理做久了以后,真正拉开差距的不是谁写了更多规则,而是谁更早发现规则已经失效,谁能把有效经验留到下一轮继续用。
小结
这一篇补的是治理变更落地后的观察层。
我的经验是,季度里把规则改对并不算难,难的是后面三件事:你得知道它有没有真的起作用,得在风险完全复开前先闻到不对劲,还得在年末把真正值得留下的资产收干净。少了任何一件,治理都会慢慢退回“出事了再补规则”的老路。
如果只能先做最小版本,我会先抓三项:
- 每条基线调整都补一份收益、副作用、绕行三组回看记录
- 每类复开风险都保留一条可以升级的预警对象,而不是只等事故
- 每个跨年度保留的治理资产都标清 owner、有效期和复用入口
这样做以后,下一轮治理启动时,团队面对的就不是一堆旧文档,而是一组还能直接拿来判断和执行的资产。
下一篇学习笔记我会继续写:LLM 年度治理资产分层盘点、失效控制退场与新周期策略继承边界。