AI 学习笔记(六十七):LLM 治理平台例外策略分级、过期清理与审计闭环最小实践

上一篇讲的是治理策略如何从源码进入多环境流水线。

但策略一旦进入生产,真正难管的往往不是 baseline,而是那些看起来“只是临时处理一下”的例外。

比如:

  1. 某个团队上线前需要临时放宽敏感词拦截
  2. 某个内部工具为了调试,需要短期开启更高 token 上限
  3. 某个场景误报率太高,希望暂时跳过人工复核
  4. 某个历史应用还没完成改造,只能先挂一个 risk acceptance

这些请求本身不一定错。生产系统不能只有一套僵硬规则,治理平台也必须允许业务在可控范围内继续交付。

问题在于:例外如果没有分级、过期和闭环,就会慢慢变成新的默认规则。

这篇写三个最小实践:

  1. 例外策略应该怎样分级
  2. 过期清理为什么不能只靠提醒
  3. 审计闭环到底要闭什么

1. 先承认例外是治理系统的一等对象

很多平台一开始会把例外当成规则旁边的备注字段:

1
2
3
4
rule:
id: pii-output-block
action: block
exception: payment-team-temp-pass

这种做法很省事,但很快会失控。

因为例外不是备注。它至少包含:

  1. 为什么要例外
  2. 谁批准了例外
  3. 例外影响哪些应用、团队、模型和环境
  4. 例外什么时候自动失效
  5. 失效后由谁确认是否恢复 baseline

如果这些信息不能被系统结构化保存,后续审计只能靠聊天记录、工单截图和人工记忆。

更稳的做法是把例外建成独立对象:

1
2
3
4
5
6
7
8
9
10
11
12
13
exception:
id: EXC-2026-05-25-001
rule_id: pii-output-block
scope:
team: customer-service
app: agent-assistant
env: prod
level: L2
reason: 高误报影响灰度验证,需要短期降级为人工复核
owner: team-tech-lead
approver: governance-oncall
expires_at: 2026-06-01 18:00:00
fallback_action: restore-baseline

这样平台才能真正回答一个问题:当前生产环境里有哪些风险不是 baseline 允许的,而是被人为接受的。

2. 例外分级的重点不是审批层级,而是风险恢复方式

很多团队设计例外分级时,会直接套审批流程:

  • L1:团队负责人审批
  • L2:平台负责人审批
  • L3:安全或合规审批

这当然有用,但还不够。

因为审批层级只能说明“谁同意了”,不能说明“系统应该怎样恢复”。

我更建议把分级和恢复策略绑定在一起:

等级 典型场景 到期动作 适合时长
L1 低风险误报、内部测试、非生产环境放行 自动恢复 baseline,通知 owner 小时级到 3 天
L2 生产灰度、短期业务阻塞、人工复核替代自动拦截 到期先降级,再进入复核队列 3 天到 2 周
L3 涉及合规、安全、用户数据或高影响生产链路 到期强制冻结或阻断,必须重新审批 按审计要求单独定义

这里的关键不是表格本身,而是每一级都必须有明确的到期动作。

如果 L2 例外到期后只是发一条消息提醒,那么它本质上还是永久例外,只是多了一层提醒噪音。

3. 过期清理不能只做“快过期提醒”

例外管理最常见的失败点,是平台只做提醒,不做状态迁移。

比如到期前一天发通知:

你的例外即将过期,请及时处理。

如果 owner 忙、离职、换岗,或者当时的业务背景已经没人记得,这条提醒就会被忽略。然后平台通常会出现两种糟糕结果:

  1. 例外继续生效,风险被无限期延长
  2. 例外突然失效,业务在生产环境被动中断

更合理的做法是把过期清理做成状态机,而不是通知任务。

一个最小状态流可以是:

1
2
3
active -> expiring -> expired_pending_review -> closed
\-> renewed
\-> forced_restored

其中:

  • active:例外正在生效
  • expiring:进入到期窗口,必须给出续期或恢复判断
  • expired_pending_review:已过期但存在生产影响,需要短暂保护窗口
  • renewed:完成续期,必须生成新审批记录
  • forced_restored:平台按预设动作恢复 baseline 或执行降级
  • closed:例外完成审计闭环

这个状态机的意义,是让平台不再依赖“有人看到提醒”。

系统应该能自动推进:到期窗口到了就进入复核,到期后没有动作就按等级执行默认恢复策略,并把每一步写进审计记录。

4. 审计闭环不是保存日志,而是能解释一次例外的完整生命周期

很多平台会说自己有审计能力,因为它保存了操作日志。

但操作日志通常只回答:

  • 谁在什么时候点了什么按钮
  • 哪个字段从 A 变成了 B

这些信息必要,但不够。

治理平台需要回答的是更高一层的问题:

  1. 当时为什么允许这次例外
  2. 它影响了哪些请求、用户、团队和模型调用
  3. 它到期后是恢复、续期还是升级成正式规则
  4. 如果产生事故,例外是否扩大了影响面
  5. 下一轮 baseline 是否应该吸收这次例外背后的合理诉求

所以审计闭环至少要包含四类记录:

记录 作用
decision record 记录审批理由、替代方案和接受的风险
runtime evidence 记录例外生效期间命中的请求、规则和处置动作
expiration outcome 记录到期后的恢复、续期、关闭或强制处理结果
learning item 记录是否需要反哺 baseline、文档或团队培训

只要缺了 expiration outcome,例外就没有真正关闭。

只要缺了 learning item,平台就只是处理了一次工单,没有把经验变成治理能力。

5. 不要让续期变成绕过治理的后门

续期是必要能力,但也是例外系统最容易被滥用的入口。

如果一个 L2 例外可以每两周点一次续期,连续续一年,那么平台看起来很严格,实际只是把永久白名单伪装成周期性审批。

所以续期至少需要三条约束:

  1. 续期必须生成新的审批记录,不能覆盖原记录
  2. 续期次数达到阈值后,自动升级到更高等级复核
  3. 长期续期必须进入 baseline 评审:要么正式吸收,要么推动业务改造,要么明确下线计划

可以把规则写得很直接:

1
2
3
4
5
renewal_policy:
max_auto_renewals: 1
max_total_renewals: 3
escalate_after_days: 30
require_baseline_review: true

这不是为了让流程更复杂,而是为了避免团队把“例外续期”当成治理逃生通道。

6. 最小落地清单

如果不想一开始就做很重的平台,可以先落下面这几个能力:

  1. 结构化例外对象:至少包含 scope、level、owner、approver、expires_at、fallback_action
  2. 例外分级表:每一级都绑定默认到期动作,而不是只绑定审批人
  3. 到期状态机:把提醒、复核、恢复、续期和关闭做成可追踪状态
  4. 运行态命中统计:记录例外期间到底放行了多少请求、拦截了多少风险
  5. 续期升级规则:防止长期例外被重复续期掩盖
  6. 关闭复盘字段:每个关闭的例外都要判断是否反哺 baseline 或团队规范

这六项做完,例外管理就已经从“人工记忆”变成了“平台可治理对象”。

7. 结语

LLM 治理平台不可能没有例外。

真正危险的不是例外存在,而是例外没有边界、没有到期、没有恢复路径,也没有被审计和复盘。

一个可持续的治理系统,应该允许业务在明确风险下临时偏离 baseline,同时确保这种偏离会被看见、被限制、被清理,并最终回到长期治理能力里。

下一篇可以继续往生产运营侧推进:治理平台如何把策略命中、例外趋势、团队整改和 baseline 演进串成一个季度运营节奏,而不是只停留在规则配置层。

本文永久链接: https://www.mulianju.com/learning-notes/ai-learning-notes-llm-governance-exception-strategy-grading-expiration-cleanup-audit-closure-minimal-practice/