灵果工作原理 · 国产大模型与开源模型的统一控制平面

接收请求

应用直接调用 platform.routero.dcsmartvision.com/v1/chat/completions，使用现有的 OpenAI 兼容 SDK。我们接受任何 OpenAI 兼容的请求格式：流式输出、工具调用、视觉、JSON 模式。

app.py

from openai import OpenAI

client = OpenAI(
    base_url="https://platform.routero.dcsmartvision.com/v1",
    api_key="rt_live_...",
)

resp = client.chat.completions.create(
    model="smart/balanced",    # 或 "deepseek-v3"、"qwen3-max"、"glm-4.5" ...
    messages=[...],
)

策略校验

四项校验并行执行：身份（RBAC、工作区范围）、内容（提示词注入检测、PII 识别）、模型（请求的模型是否对该调用方开放）、预算（这次请求是否还在预算之内）。任一失败立即短路并返回结构化错误。

入口

openai.chat()

→

身份 · finance 团队

内容 · 0.02 注入风险

模型 · smart/balanced 已授权

预算 · ¥58,412 / ¥150,000

→

决策

放行

选择提供方

灵果按健康度、时延、价格、数据驻留要求、近期错误率对候选模型打分。命中的模型以流式直通的方式被调用。若失败或被限流，自动切换到下一个候选。

★

DeepSeek deepseek-v3

P50 142ms · ¥0.002/千 tokens · OK

已选中

通义千问 qwen3-max

P50 178ms · ¥0.004/千 tokens · 429 限流

备选

智谱 GLM glm-4.5

P50 121ms · ¥0.003/千 tokens · 区域不匹配

不符合

私有部署 qwen3-open

P50 198ms · 内部成本 · OK

兜底

计费与审计

Token 数与人民币成本原子化扣减自对应预算账户。完整的决策过程——每一项校验、命中的提供方、考虑过的候选、响应形态——在响应离开网关的毫秒级时间内写入只追加的审计日志。

预算更新

finance / 8月+¥0.084

剩余¥91,587.84

审计条目

{
  "req": "req_8b2f...",
  "user": "u_pa9",
  "route": "smart/balanced",
  "chose": "deepseek:deepseek-v3",
  "checks": ["id","content","model","budget"],
  "latency_ms": 142,
  "tokens": { "in": 412, "out": 198 },
  "residency": "cn-north"
}

一次 API 调用，
四步决策。

接收请求

策略校验

选择提供方

计费与审计

四个基础构件

路由（Routes）

策略（Policies）

预算（Budgets）

审计（Audits）

三种部署形态

公有云 SaaS

专有云（独立集群）

客户 VPC 私有化

在贵司的栈上看一次效果

一次 API 调用，四步决策。

接收请求

策略校验

选择提供方

计费与审计

四个基础构件

路由（Routes）

策略（Policies）

预算（Budgets）

审计（Audits）

三种部署形态

公有云 SaaS

专有云（独立集群）

客户 VPC 私有化

在贵司的栈上看一次效果

一次 API 调用，
四步决策。