灵果 灵果
工作原理

一次 API 调用,
四步决策

每一次到达 灵果 的请求,都经过一条确定性的流水线:先策略校验,再选模型,再计费,最后审计——附加时延小于 15 毫秒,每一步都可解释、可追溯。

01

接收请求

应用直接调用 platform.routero.dcsmartvision.com/v1/chat/completions,使用现有的 OpenAI 兼容 SDK。我们接受任何 OpenAI 兼容的请求格式:流式输出、工具调用、视觉、JSON 模式。

app.py
from openai import OpenAI

client = OpenAI(
    base_url="https://platform.routero.dcsmartvision.com/v1",
    api_key="rt_live_...",
)

resp = client.chat.completions.create(
    model="smart/balanced",    # 或 "deepseek-v3"、"qwen3-max"、"glm-4.5" ...
    messages=[...],
)
02

策略校验

四项校验并行执行:身份(RBAC、工作区范围)、内容(提示词注入检测、PII 识别)、模型(请求的模型是否对该调用方开放)、预算(这次请求是否还在预算之内)。任一失败立即短路并返回结构化错误。

入口
openai.chat()
身份 · finance 团队
内容 · 0.02 注入风险
模型 · smart/balanced 已授权
预算 · ¥58,412 / ¥150,000
决策
放行
03

选择提供方

灵果 按健康度、时延、价格、数据驻留要求、近期错误率对候选模型打分。命中的模型以流式直通的方式被调用。若失败或被限流,自动切换到下一个候选。

DeepSeek deepseek-v3
P50 142ms · ¥0.002/千 tokens · OK
已选中
2
通义千问 qwen3-max
P50 178ms · ¥0.004/千 tokens · 429 限流
备选
3
智谱 GLM glm-4.5
P50 121ms · ¥0.003/千 tokens · 区域不匹配
不符合
4
私有部署 qwen3-open
P50 198ms · 内部成本 · OK
兜底
04

计费与审计

Token 数与人民币成本原子化扣减自对应预算账户。完整的决策过程——每一项校验、命中的提供方、考虑过的候选、响应形态——在响应离开网关的毫秒级时间内写入只追加的审计日志。

预算更新
finance / 8月+¥0.084
剩余¥91,587.84
审计条目
{
  "req": "req_8b2f...",
  "user": "u_pa9",
  "route": "smart/balanced",
  "chose": "deepseek:deepseek-v3",
  "checks": ["id","content","model","budget"],
  "latency_ms": 142,
  "tokens": { "in": 412, "out": 198 },
  "residency": "cn-north"
}

四个基础构件

灵果 中所有可配置项都属于这四类之一。组合它们,即可建模真实组织结构。

三种部署形态

同一控制平面,不同信任边界——按贵司安全团队的偏好选择。

公有云 SaaS

多租户、多区域。境内节点部署。一个 API Key 即可上手,分钟级开通。

  • · 全托管基础设施
  • · 自动弹性扩缩
  • · 多可用区高可用

客户 VPC 私有化

灵果 部署在客户 VPC 或本地数据中心。无第三方数据通路。提供 Helm Chart 与 Terraform 模块。

  • · VPC 内部署 / 本地化
  • · 离线 / 气隙环境可选
  • · 与企业 IAM 体系对接

在贵司的栈上看一次效果

30 分钟的解决方案演示:把你们当前在用的模型清单带上,我们现场画出路由与策略。