Question 1

為什麼不讓我選模型?

Accepted Answer

因為選模型是苦差事,而且人工選很難選準。我們的自研調度引擎有五大演算法模組(意圖識別、L1-L5 難度分級、智慧路由、品質評估、熔斷降級),對每個請求做難度打分和意圖分類,然後從合格模型池裡挑最便宜的。 L1 簡單任務走 Qwen-Turbo ($0.20/M),L4 深度推理走 GPT-4o-mini 或 DeepSeek-Reasoner,L5 複雜任務走 GPT-4o / Claude Sonnet－全自動完成且有依據。

Question 2

跟 OpenRouter / 一般聚合網關有什麼不同?

Accepted Answer

大多數聚合網關是「你指定 model 名 → 我們轉發」的薄代理。我們不是－我們用自研調度引擎對每個請求做難度分級和意圖分析,然後按“滿足品質門檻的最便宜模型”決策。能力維度是海外 benchmark (HumanEval/MMLU-Pro/MATH/MT-Bench) 與中國 benchmark (OpenCompass/SuperCLUE/CMMLU) 按 60/40 權重綜合得分,不是廠商自報。

Question 3

到底能省多少?

Accepted Answer

按我們的混合成本模型:80% 流量是日常聊天由高效模型服務(約 $0.40/1M 輸入), 20% 是難題由旗艦模型服務(約 $8/1M)。你的扁平價是 $3/$12。相比總是走旗艦模型, 按問題組合省 40~56%。

Question 4

重試和對沖路徑要我付錢嗎?

Accepted Answer

不。內部重試、避險、快取預熱的成本由我們承擔。你只為真正收到的輸入 + 最終輸出付費。管理後台有對帳工具可以看完整拆解。

Question 5

緩存摺扣是什麼?

Accepted Answer

快取命中(精確或語義)以正常價 25% 計費。重複問題第二次便宜 75%。我們在內部也用上游 prompt 緩存(OpenAI / Anthropic / DeepSeek), 省下的錢已經反映在扁平價裡。

Question 6

能用 OpenAI SDK 嗎?

Accepted Answer

能。我們的 API 與 OpenAI 完全相容。把 SDK 的 base_url 指到我們的網關, model=nexevo/balanced, 就開始使用。 Function calling、串流、視覺輸入都零改動可用。

Question 7

我的數據會被用來訓練嗎?

Accepted Answer

不會。我們按上游廠商的「不用於訓練」條款轉送請求。你的 prompt 和響應不保留用於模型改進。

Question 8

你們路由到哪些模型?

Accepted Answer

OpenAI、Anthropic、Google、DeepSeek、Mistral、xAI、通義、Moonshot、智譜、Cohere、Together、Fireworks、Groq、Cerebras、Perplexity、SiliconFlow — 共 60+ 款。我們在後端持續接入新模型, 你的程式碼零改動。

常見問題