AI Provider 最新动态:Google 给 Gemini API 加上 Flex / Priority 后,团队该先重写延迟与预算策略
按北京时间 2026 年 4 月 4 日中午 回看本轮 provider 观察窗口,Google 在 2026-04-02 发布的 Gemini API Flex / Priority inference 仍然是最值得团队负责人认真拆的一条。
原因很简单:
Google 这次改的不是单个模型能力,而是 Gemini API 的流量分层方式。
官方博客和官方 pricing 页面现在已经把三种层级摆明了:
StandardFlexPriority
以前很多团队默认把“同步接口”理解成同一种服务语义。
现在这个前提已经不成立了。
Google 等于把同一套同步接口拆成了三类请求:
- 成本更低、可以忍受延迟和可用性波动的
- 常规默认流量
- 对可靠性和时延更敏感、愿意付更高价格的
这会直接改掉:
- 路由策略
- 延迟与可靠性假设
- 预算和计费边界
1. Google 这次到底放出了什么
Google 官方博客在 2026-04-02 给出的核心信息很集中。
1) Flex:同步接口里的低成本层
Google 把 Flex Inference 定位成面向 latency-tolerant workloads 的成本优化层。
博客里写得很直白:
Flex走的还是同步接口- 不用像 Batch API 那样管理输入输出文件和轮询任务状态
- 代价是请求关键程度被下调,可靠性更低,延迟也会更高
- 官方给出的价格信号是 比 Standard 便宜 50%
这点很重要。
它把原来很多团队只能放进 Batch API 的后台任务,挪回了同一套同步接口。
2) Priority:同步接口里的高关键度层
Google 同时放出了 Priority Inference。
官方表述是:
- 它提供更高等级的 assurance
- 即使在平台高峰期,也尽量避免关键流量被挤掉
- 如果 Priority 流量超出限额,overflow request 会自动降到 Standard,而不是直接失败
- API 响应里会标明本次请求实际由哪个 tier 服务
这几个点连起来看,Google 想解决的是生产流量里最麻烦的那类问题:
- 你想要更稳
- 但不想单独维护两套 API 面
- 也不想一旦超额就硬失败
3) service_tier 成了新的治理开关
Google 官方博客还明确说了,开发者只要在请求里设置 service_tier 参数,就能切到对应层级。
这意味着:
Gemini API 的治理入口,已经不只是 model name 和 rate limit。
现在还多了一个很关键的维度:
service_tier
对平台团队来说,这和“多一个可选参数”不是一回事。
它等于新增了一条生产治理轴。
2. 官方 pricing 页面已经把成本差拉开了
官方 pricing 页面这次不是只写概念,连不同 tier 的价格都已经列出来了。
以 Gemini 3.1 Pro Preview 为例:
Standard
输入 $2.00 / 1M tokens,输出 $12.00 / 1M tokensFlex
输入 $1.00 / 1M tokens,输出 $6.00 / 1M tokensPriority
输入 $3.60 / 1M tokens,输出 $21.60 / 1M tokens
以 Gemini 3.1 Flash-Lite Preview 为例:
Standard
输入 $0.25 / 1M tokens,输出 $1.50 / 1M tokensFlex
输入 $0.125 / 1M tokens,输出 $0.75 / 1M tokensPriority
输入 $0.45 / 1M tokens,输出 $2.70 / 1M tokens
这里最需要团队认真看的,不只是 Flex 更便宜。
更重要的是:
Priority明确更贵Flex与Standard的差价足够大- 同步接口已经不是单一成本曲线
所以你后面要做的,已经不是“这个模型值不值得用”,而是“哪类流量该进哪层服务”。
3. 为什么这件事现在值得团队负责人看
很多团队在 AI API 上的默认做法,是把所有同步流量都塞进一个入口:
- 用户对话
- 在线代码辅助
- 离线总结
- 长思考 agent
- 内容审核
这套做法以前还能勉强凑合,因为你能调的主要是:
- 模型
- token 上限
- 并发和 rate limit
Google 这次把 service_tier 放出来以后,同步流量第一次被正式分成了三层。
所以团队现在更该重写的是两套默认假设:
- “同步请求都该拿同一种可靠性”
- “预算控制只要盯模型和 token 数”
这两条现在都不够用了。
4. 对不同角色分别意味着什么
对个人开发者
如果你主要做的是:
- 离线整理
- 大量批量生成
- 能接受慢一点的研究型任务
Flex 很可能会立刻变成更合适的默认层。
你不必为了省成本重构成 Batch API,也不必硬扛 Standard 价格。
对小团队
小团队最容易从这次更新里拿到好处。
原因很直接:
- 可以把低关键度任务挪到
Flex - 关键路径继续留在
Standard - 真正碰到对可靠性敏感的入口,再少量试
Priority
这样能先把成本曲线切薄,再看有没有必要为高关键度流量付溢价。
对企业平台团队
企业要看的反而不是省多少钱,而是路由和治理能不能跟上。
你要尽快补的通常是:
- 请求分类标准
service_tier默认值- overflow 到
Standard后的监控和告警 - 哪些系统允许用
Priority - 哪些系统只能走
Flex或Standard
如果这层不补,财务账单和 SLO 会很容易互相打架。
5. 这是重大突破,还是渐进式改良
我的判断是:
这是平台层的显著改造,不是模型能力层的大版本。
它没有让 Gemini 突然会了新的任务。
它真正改变的是:
- Gemini API 的流量分层方式
- 同步推理接口的成本结构
- 团队对可靠性和预算的控制手段
对已经把 Gemini 接进生产流量的团队,这类变化的现实影响,往往比一次 benchmark 小涨更大。
6. 更稳的落地顺序
我建议不要一看见 Priority 就把关键流量全切过去,也不要一看见 Flex 便宜就把所有后台任务都塞进去。
更稳的顺序应该是这样:
1) 先给现有流量做分桶
至少先分成三类:
latency-sensitive
用户在线请求、copilot 类交互、审核链路latency-tolerant
研究、总结、离线 enrichment、agent background thinkingbusiness-critical
真正需要更高可靠性保障的入口
2) 第二步只把低关键度任务迁到 Flex
优先挑:
- nightly summarization
- 批量评测
- CRM enrichment
- 长链路研究型 agent 步骤
这类任务最适合先用 Flex 试成本收益。
3) 第三步再试 Priority
Priority 更适合放在这些位置:
- 用户实时交互
- SLA 压得很紧的审核流程
- 失败代价高于额外推理成本的入口
先小流量灰度,再看:
- p95 latency
- overflow 到 Standard 的频率
- 单次请求成本
4) 收口后再把 tier 接进统一预算闸门
要补的不是一张新的价格表,而是:
- 哪些服务允许声明
Priority - 哪些任务必须走
Flex - 哪些服务在月预算吃紧时自动降级
7. 套餐影响矩阵
这一轮虽然不是订阅 seat 调整,但它本质上是计费与可用性分层,所以最好还是用矩阵看。
| 角色 | 更适合先跟的 tier | 直接收益 | 主要风险 |
|---|---|---|---|
| 个人开发者 | Flex | 同步接口下直接降成本 | 误把用户交互流量放进去,体验抖动 |
| 小团队 | Standard + Flex 混合 | 不用重做 Batch 流程也能切低成本流量 | 路由规则不清,账单难解释 |
| 企业平台 | Standard + Flex + 少量 Priority | 可以把可靠性、预算和关键程度绑进统一治理 | Priority 滥用导致成本外溢 |
8. 风险、边界和回滚思路
风险 1:Flex 不是“便宜版 Standard”
Google 官方博客已经写了,Flex 的代价就是更低可靠性和更高延迟。
所以它不适合:
- 强实时交互
- 高可用审核链路
- 用户会直接感知抖动的在线功能
风险 2:Priority 不是无限兜底
Google 的设计更像“高关键度层 + 超额时优雅降级到 Standard”。
这对业务连续性很好,但也意味着:
- 你仍然要监控 overflow
- 不能把
Priority当成天然的硬 SLA - 响应里标出来的实际 tier 必须接进可观测性
风险 3:preview 模型和 tier 价格可能继续变
官方 pricing 页面里现在仍然有不少 Preview 标识。
这意味着:
- 价格和适用模型还可能继续调整
- 平台侧最好保留 tier mapping 配置,而不是写死
回滚思路
我建议保留两层回退:
Priority只通过白名单服务启用Flex只先给后台和研究型步骤
一旦发现:
- 用户延迟波动超预期
- overflow 比例过高
- 预算吃紧
就先退回 Standard,再复盘 tier 切分,而不是继续硬扛。
9. 替代方案和承接策略怎么选
不是所有团队都该马上把三层都用起来。
我更推荐下面三种承接方式:
方案一:继续用 Standard,只补监控
更适合:
- 你们的流量还不大
- 关键路径不多
- 还没准备好做 tier-aware routing
方案二:Standard + Flex 混合
这是我最推荐的大多数团队第一步。
更适合:
- 已经有明显后台任务
- 想立刻压一部分推理成本
- 还不急着为最高可靠性单独付费
方案三:企业侧用更强保障方案承接最高关键度流量
如果你们真正需要的是更强的长期产能与稳定性承诺,官方 pricing 页面里已经把 Enterprise 方案和 Provisioned throughput 摆出来了。
这更适合:
- 长期高负载生产流量
- 对安全、合规和支持通道有明确要求
- 不想把关键流量完全押在按次付费的
Priority上
我的建议很直接:
绝大多数团队现在最稳的路线,不是立刻全量上 Priority,而是先把 Flex 和 Standard 切开,再决定哪些路径真的配得上 Priority 的溢价。
10. 这条 provider 更新最该记住什么
Google 这次放出的,不只是两个新 tier。
它真正改掉的是一个旧默认:
同步推理接口不再天然等于同一种成本、同一种可靠性、同一种关键程度。
所以这轮最该先改的,不是 prompt,也不是模型名。
而是三件事:
- 流量分桶
service_tier默认策略- tier 级预算和降级规则
这三件事不补,Flex 只会被误用成“便宜通道”,Priority 也会被误用成“贵一点但更安心”的模糊选项。
补清楚之后,Gemini API 才真正开始像一个可治理的生产平台,而不只是一个统一入口。