灵果 / 故障切换策略路由预算与限流 SSO 与审计

成本治理

预算与限流。

硬上限、软告警、按团队的清晰分摊——给每一笔大模型支出一个对账依据。财务拿一张统一发票，各成本中心拿到逐项归属的明细。

告警 · 限流 · 阻断按团队 / 项目预算分摊就绪对接数据仓库

5 分钟

从请求发生到分摊台账落地

¥0.001

所有提供方统一到分级到每千 token 的成本精度

3 级

强制档位：告警、限流、阻断

1 张

跨所有模型提供方的统一发票

问题

「这个月怎么烧了 30 万？」

AI 支出和流量不是线性关系。一个写错的 Agent 循环、一个周五上线的新功能、一个周末忘了关的实验——周一财务就来问了。

预算与限流把真实的预算约束装到 AI 流量上：硬上限在烧穿之前拦住流量，软告警在硬上限之前出声，分摊报表让每一笔成本落到对应的成本中心。

三级强制档位

早点告警。智能限流。
真有必要才阻断。

告警

软阈值

预算用到 80%，企业微信 / 钉钉 / 飞书机器人通知团队负责人；用到 95%，呼叫值班。流量不受影响——只是把成本异常前置到「人在回路中」。

限流

优雅降级

预算耗尽时，自动切到成本优先路由。smart/cheap 之类的智能别名在不丢请求的前提下降低质量。

阻断

硬上限

按团队、按路由、按工作区设置上限。触达后，请求返回结构化 429 与重置时间。服务不下线，但失控的循环停下了。

实时看板

每一元钱都有归属

支出按工作区、团队、路由、模型自动汇总——用的是业务已经在发送的工作区 / 团队 header。可直接导出给财务，或在数据仓库里做 BI 分析。

2026 年 11 月 · 预计

¥486,310 / ¥700,000 预算

↓ 18% 环比

启用策略路由后

platform-engineering ¥168,420 · DeepSeek · Qwen3

ai-products ¥132,180 · Qwen3-Max · GLM-4.5

data-science ¥98,490 · DeepSeek-R1 · 自托管

customer-support ¥56,210 · Kimi · Qwen3-Plus

internal-tools ¥31,010 · smart/cheap

data-science 组本月已用至预算 92%，今早已发出企微告警。若触达 100%，流量自动降级到 smart/cheap，直到月度预算重置。

分摊

财务收到一张发票，
每个团队拿到归属明细

支出按工作区、团队、路由、模型与业务自带标签自动汇总。可导出 CSV，或推送至用友、金蝶、企业财务中台或数据仓库。

CSV

月度导出

按贵司成本中心结构拆分的明细表。交给财务，直接对账。

API

程序化访问

通过 REST 读取每次请求的成本、归属团队、命中提供方。自建看板亦可。

数仓

MaxCompute / Hologres 同步

按小时批量同步元数据到贵司数仓，与已有财务维表 join。

把它装到贵司当下的支出上

30 分钟解决方案演示——带上贵司的模型清单与上月账单，我们现场拆给您看。

预约演示查看定价

预算与 限流。