Question 1

モデルを選ばせてもらえませんか？

Accepted Answer

モデルの選択は面倒な作業であり、手動で正確に選択するのは困難だからです。当社が独自に開発したスケジューリング エンジンには、5 つの主要なアルゴリズム モジュール (意図認識、L1 ～ L5 難易度分類、インテリジェント ルーティング、品質評価、サーキット ブレーカーの劣化) があります。難易度をスコア化し、各リクエストの意図を分類し、適格なモデル プールから最も安価なものを選択します。 L1 の単純なタスクには Qwen-Turbo ($0.20/M) を使用し、L4 の詳細な推論には GPT-4o-mini または DeepSeek-Reasoner を使用し、L5 の複雑なタスクには GPT-4o / Claude Sonnet を使用します。これは完全に自動で十分な根拠があります。

Question 2

OpenRouter/一般的なアグリゲーションゲートウェイとの違いは何ですか？

Accepted Answer

ほとんどのアグリゲーション ゲートウェイは、「モデル名を指定すると、それを転送します」というシン プロキシです。私たちはそうではありません。私たちは、独自に開発したスケジューリング エンジンを使用して難易度を評価し、各リクエストの意図を分析し、「品質のしきい値を満たす最も安価なモデル」に基づいて決定を下します。能力ディメンションは、海外ベンチマーク (HumanEval/MMLU-Pro/MATH/MT-Bench) と中国ベンチマーク (OpenCompass/SuperCLUE/CMMLU) を 60/40 で加重した総合スコアであり、メーカーが自己申告するものではありません。

Question 3

どれくらい節約できますか？

Accepted Answer

混合コスト モデルによると、トラフィックの 80% は効率的なモデルで処理される毎日のチャット (入力 100 万あたり約 0.40 ドル)、20% は主力モデルで処理されるハード トラフィック (100 万あたり約 8 ドル) です。定額料金は $3/$12 です。フラッグシップモデルを常に購入する場合と比べ、銘柄の組み合わせによっては40～56％お得になります。

Question 4

再試行とパスのヘッジに料金を支払う必要がありますか?

Accepted Answer

いいえ。内部再試行、ヘッジ、キャッシュウォーミングのコストは当社が負担します。実際に受け取るインプットと最終的なアウトプットに対してのみ料金を支払います。管理バックエンドには、完全な内訳を表示するための調整ツールがあります。

Question 5

キャッシュ割引とは何ですか?

Accepted Answer

キャッシュ ヒット (正確またはセマンティック) には、通常価格の 25% が課金されます。質問を繰り返すと、2 回目は 75% 安くなります。また、社内ではアップストリーム プロンプト キャッシング (OpenAI / Anthropic / DeepSeek) も使用しており、節約された費用は定額料金に反映されています。

Question 6

OpenAI SDKは使用できますか?

Accepted Answer

できる。私たちの API は OpenAI と完全に互換性があります。 SDK のbase_url をゲートウェイ、model=nexevo/balanced に指定し、使用を開始します。関数の呼び出し、ストリーミング、ビジュアル入力はすべて変更なしで利用できます。

Question 7

私のデータはトレーニングに使用されますか?

Accepted Answer

いいえ。上流メーカーの「トレーニング対象外」条件に従ってリクエストを転送します。プロンプトと応答はモデルの改善のために保持されません。

Question 8

どのモデルにルーティングしますか?

Accepted Answer

OpenAI、Anthropic、Google、DeepSeek、Mistral、xAI、Tongyi、Moonshot、Zhipu、Cohere、Togetter、Fireworks、Groq、Cerebras、Perplexity、SiliconFlow — 合計 60 以上のモデル。新しいモデルをバックエンドに統合し続けるため、コードは変更されません。

よくある質問