常见问题
关于自研调度引擎、价格以及我们如何压低成本的说明。
为什么不让我选模型?
因为选模型是个苦差事,而且人工选很难选准。我们的自研调度引擎有五大算法模块(意图识别、L1-L5 难度分级、智能路由、质量评估、熔断降级),对每个请求做难度打分和意图分类,然后从合格模型池里挑最便宜的。L1 简单任务走 Qwen-Turbo ($0.20/M),L4 深度推理走 GPT-4o-mini 或 DeepSeek-Reasoner,L5 复杂任务走 GPT-4o / Claude Sonnet——全自动完成且有依据。
跟 OpenRouter / 一般聚合网关有什么不同?
大多数聚合网关是「你指定 model 名 → 我们转发」的薄代理。我们不是——我们用自研调度引擎对每个请求做难度分级和意图分析,然后按「满足质量门槛的最便宜模型」决策。能力维度是海外 benchmark (HumanEval/MMLU-Pro/MATH/MT-Bench) 与中国 benchmark (OpenCompass/SuperCLUE/CMMLU) 按 60/40 权重综合得分,不是厂商自报。
到底能省多少?
按我们的混合成本模型:80% 流量是日常聊天由高效模型服务(约 $0.40/1M 输入), 20% 是难题由旗舰模型服务(约 $8/1M)。你的扁平价是 $3/$12。相比总是走旗舰模型, 按问题组合省 40~56%。
重试和对冲路径要我付钱吗?
不。内部重试、对冲、缓存预热的成本由我们承担。你只为真正收到的输入 + 最终输出付费。管理后台有对账工具可以看完整拆解。
缓存折扣是什么?
缓存命中(精确或语义)按正常价 25% 计费。重复问题第二次便宜 75%。我们在内部也用上游 prompt 缓存(OpenAI / Anthropic / DeepSeek), 省下的钱已经反映在扁平价里。
能用 OpenAI SDK 吗?
能。我们的 API 与 OpenAI 完全兼容。把 SDK 的 base_url 指到我们的网关, model=nexevo/balanced, 就开始用。Function calling、流式、视觉输入都零改动可用。
我的数据会被用来训练吗?
不会。我们按上游厂商的「不用于训练」条款转发请求。你的 prompt 和响应不保留用于模型改进。
你们路由到哪些模型?
OpenAI、Anthropic、Google、DeepSeek、Mistral、xAI、通义、Moonshot、智谱、Cohere、Together、Fireworks、Groq、Cerebras、Perplexity、SiliconFlow — 共 60+ 款。我们在后端持续接入新模型, 你的代码零改动。