灵果 灵果
成本治理

预算与 限流

硬上限、软告警、按团队的清晰分摊——给每一笔大模型支出一个对账依据。财务拿一张统一发票,各成本中心拿到逐项归属的明细。

告警 · 限流 · 阻断 按团队 / 项目预算 分摊就绪 对接数据仓库
5 分钟
从请求发生到分摊台账落地
¥0.001
所有提供方统一到分级到每千 token 的成本精度
3 级
强制档位:告警、限流、阻断
1 张
跨所有模型提供方的统一发票

「这个月怎么烧了 30 万?」

AI 支出和流量不是线性关系。一个写错的 Agent 循环、一个周五上线的新功能、一个周末忘了关的实验——周一财务就来问了。

预算与限流把真实的预算约束装到 AI 流量上:硬上限在烧穿之前拦住流量,软告警在硬上限之前出声,分摊报表让每一笔成本落到对应的成本中心。

早点告警。智能限流。
真有必要才阻断。

告警

软阈值

预算用到 80%,企业微信 / 钉钉 / 飞书机器人通知团队负责人;用到 95%,呼叫值班。流量不受影响——只是把成本异常前置到「人在回路中」。

限流

优雅降级

预算耗尽时,自动切到成本优先路由。smart/cheap 之类的智能别名在不丢请求的前提下降低质量。

阻断

硬上限

按团队、按路由、按工作区设置上限。触达后,请求返回结构化 429 与重置时间。服务不下线,但失控的循环停下了。

每一元钱都有归属

支出按工作区、团队、路由、模型自动汇总——用的是业务已经在发送的工作区 / 团队 header。可直接导出给财务,或在数据仓库里做 BI 分析。

2026 年 11 月 · 预计
¥486,310 / ¥700,000 预算
↓ 18% 环比
启用策略路由后
platform-engineering ¥168,420 · DeepSeek · Qwen3
ai-products ¥132,180 · Qwen3-Max · GLM-4.5
data-science ¥98,490 · DeepSeek-R1 · 自托管
customer-support ¥56,210 · Kimi · Qwen3-Plus
internal-tools ¥31,010 · smart/cheap

data-science 组本月已用至预算 92%,今早已发出企微告警。若触达 100%,流量自动降级到 smart/cheap,直到月度预算重置。

财务收到一张发票,
每个团队拿到归属明细

支出按工作区、团队、路由、模型与业务自带标签自动汇总。可导出 CSV,或推送至用友、金蝶、企业财务中台或数据仓库。

CSV

月度导出

按贵司成本中心结构拆分的明细表。交给财务,直接对账。

API

程序化访问

通过 REST 读取每次请求的成本、归属团队、命中提供方。自建看板亦可。

数仓

MaxCompute / Hologres 同步

按小时批量同步元数据到贵司数仓,与已有财务维表 join。

把它装到贵司当下的支出上

30 分钟解决方案演示——带上贵司的模型清单与上月账单,我们现场拆给您看。