常见问题 · 灵果 · 国产大模型与开源模型网关

快速上手

灵果是什么？

灵果是面向中国企业的大模型控制平面，位于业务应用与各家模型服务之间。一套 OpenAI 兼容 API 接入 DeepSeek、通义千问、智谱 GLM、Kimi、混元、MiniMax、百川、Yi 以及开源权重模型，内置故障切换、策略路由、预算限流与审计。

可以把它理解为 AI 流量的「治理、监控、IAM」统一层。

集成需要多久？

若业务已经使用 OpenAI 兼容 SDK，集成只需改一行：把 base_url 改成 https://platform.routero.dcsmartvision.com/v1。多数团队 10 分钟内就能跑通第一个路由请求。

需要改提示词（prompt）吗？

不需要。灵果透传所有 prompt。你可以用智能别名（如 smart/balanced）让灵果决定使用哪个模型，也可以直接指定 deepseek-v3、qwen3-max、glm-4.5。

支持哪些模型？

国产闭源：DeepSeek、通义千问（Qwen3 / Max / Plus）、智谱 GLM（4.5 / 4-Plus）、Kimi (Moonshot K2)、腾讯混元、MiniMax (abab / M1)、百川、Yi（零一万物）。

开源权重 / 自托管：Qwen 开源系列、DeepSeek 开源、ChatGLM 开源，以及任何 OpenAI 兼容端点（vLLM、Ollama、TGI、SGLang）。

不绑定支付方式能试用吗？

可以。试用版包含每月 100 万 tokens，无需信用卡。可使用灵果统一开票（按各模型官方价 1:1 转付）或自带 API Key（BYOK）。

路由与模型

故障切换是怎么工作的？

每条路由有一组有序的「提供方 + 模型」候选。主选失败（超时、5xx、限流、健康检查降级）时，灵果自动重试下一个候选。业务端只看到一次成功响应。流式输出在切换时也会保持连续。

什么是「智能别名」（smart alias）？

由灵果在运行时选择模型的别名：smart/cheap 优先成本、smart/balanced 默认平衡、smart/best 优先质量。选择会综合健康度、时延、近期错误率与贵司的策略。

能做 A/B 模型实验吗？

可以。定义一条带流量分配的路由（例：70% DeepSeek-V3，30% Qwen3-Max）。灵果会在每次请求上标注实际命中的提供方，并写入审计日志，可以喂给实验平台做归因。

支持流式（SSE）吗？

支持。Server-Sent Events 直通转发，无缓冲。工具调用（function calling）、视觉、JSON 模式、结构化输出均原样透传。

灵果会增加多少时延？

路由决策本身 P99 < 50ms，P50 实际增加约 8–12ms。灵果节点与模型服务节点同区域部署，跨区开销很小。

能按区域路由以满足数据驻留要求吗？

可以。策略可以限制流量仅命中境内提供方，结合 PII 检测可以为合规评审提供可证明的方案。请注意：本页不构成具体法律意见，最终合规结论以贵司法律团队审阅为准。

安全与合规

有哪些安全认证？

面向中国市场的合规认证（如等保 2.0、ISO 27001）正在推进中。具体认证范围与时间表，请联系销售索取最新版安全白皮书。本页不构成对任何特定认证的承诺。

会用我们的数据做训练吗？

不会。灵果不会用、不保留、不转售贵司的 prompt 或响应内容。请求载荷仅在内存中处理并丢弃，仅元数据（token 计数、时延、决策记录）会持久化用于审计与计费。

SSO 是如何对接的？

企业版支持 SAML 2.0 与 OIDC，已对接钉钉、飞书、企业微信、Okta、Azure AD / Entra、自建 IdP。SCIM 用户自动同步可用于用户生命周期管理。

审计日志里有什么？

每一次路由决策的完整记录：调用方身份、请求的路由、触发的策略校验、命中的提供方、考虑过的候选、时延、token 用量，以及请求关联 ID。不可篡改，可导出至 SIEM 或日志中台（Datadog、ELK、Loki、SLS 等）。

能在我们自己的 VPC / 内网部署吗？

可以。企业版支持 VPC 内部署、本地数据中心、离线 / 气隙环境，提供 Helm Chart 与 Terraform 模块。也支持国产 OS（统信 UOS、麒麟）与国产 CPU（鲲鹏、海光）。请联系销售索取最新兼容矩阵。

计费与定价

模型 Token 怎么计费？

两种方式可以按工作区混搭：

1. 使用灵果统一开票。我们打通各家模型服务的接入，按各模型官方价 1:1 转付，单张人民币（RMB）发票。我们不在模型费用上加价——所有金额可与提供方公开价目对账。

2. 自带 API Key（BYOK）。贵司与模型厂商的原合同与发票不变，只向灵果支付控制平面订阅费用。

多数团队先用统一开票快速跑通，再把已与特定厂商签了企业价的部分迁到 BYOK。

灵果会加价吗？

不会。使用统一开票时，token 成本按各厂商官方价 1:1 透传——每一元都可以与公开价目对账。灵果的收入来自控制平面订阅（路由、治理、审计、预算）。

什么算「一次路由请求」？

一次到达灵果并被路由的入站 API 调用。失败重试到备用模型的内部调用不重复计数。流式输出无论返回多少 token，仍按一次请求计数。

有年付优惠吗？

有。成长版与企业版年付享 8 折，多年签约可进一步优惠。

成本分摊（chargeback）怎么实现？

给每次请求打上成本中心标签（团队、项目、客户 ID）。分摊看板会把 token 与提供方费用按标签汇总，可导出 CSV 或推到企业财务系统。

部署与私有化

灵果部署在哪里？

公有云 SaaS 默认部署在境内多可用区，请求与日志全部驻留境内。企业版可指定区域或独立集群。

可用性 SLA 是多少？

公有云 SaaS：成长版 99.9%，企业版 99.99%。专有云与私有化部署的 SLA 按签约协议约定，并提供服务点数补偿条款。

能接入我们自有的模型吗？

可以。任何 OpenAI 兼容端点（vLLM、Ollama、TGI、SGLang、自研推理服务）都可以注册为提供方，按一等公民方式参与路由。

如果灵果故障了会怎样？

SDK 内置可选的「直连兜底」模式：当灵果不可达时，客户端会带着已配置的 Key 直接调用提供方，业务不中断。接入灵果不会引入新的单点风险。

疑问，解答。

快速上手

路由与模型

安全与合规

计费与定价

部署与私有化

没有匹配的结果

没找到想要的答案？