Question 1

Pourquoi ne me laisses-tu pas choisir un modèle ?

Accepted Answer

Parce que sélectionner un modèle est une corvée et qu’il est difficile de le sélectionner avec précision manuellement. Notre moteur de planification auto-développé dispose de cinq modules d'algorithmes majeurs (reconnaissance d'intention, classification de difficulté L1-L5, routage intelligent, évaluation de la qualité, dégradation des disjoncteurs). Il note la difficulté et classe l'intention de chaque demande, puis sélectionne la moins chère dans le pool de modèles qualifiés. Pour les tâches simples L1, utilisez Qwen-Turbo (0,20 $/M), pour le raisonnement profond L4, utilisez GPT-4o-mini ou DeepSeek-Reasoner, et pour les tâches complexes L5, utilisez GPT-4o / Claude Sonnet - entièrement automatique et bien fondé.

Question 2

Quelle est la différence avec OpenRouter/passerelle d’agrégation générale ?

Accepted Answer

La plupart des passerelles d'agrégation sont des proxys légers pour "vous spécifiez le nom du modèle → nous le transmettons". Ce n'est pas le cas : nous utilisons notre moteur de planification que nous avons développé nous-mêmes pour évaluer la difficulté et analyser l'intention de chaque demande, puis prenons des décisions basées sur le « modèle le moins cher qui atteint le seuil de qualité ». La dimension de capacité est le score global du benchmark étranger (HumanEval/MMLU-Pro/MATH/MT-Bench) et du benchmark chinois (OpenCompass/SuperCLUE/CMMLU) avec une pondération de 60/40, et n'est pas auto-déclaré par le fabricant.

Question 3

Combien pouvez-vous économiser ?

Accepted Answer

Grâce à notre modèle de coûts mixtes : 80 % du trafic est constitué de discussions quotidiennes servies par le modèle efficace (environ 0,40 $/1 M d'entrée), 20 % est du trafic dur servi par le modèle phare (environ 8 $/1 M). Votre prix forfaitaire est de 3 $/12 $. Par rapport à l'achat permanent du modèle phare, vous pouvez économiser 40 à 56 % selon la combinaison de problèmes.

Question 4

Dois-je payer pour les tentatives et les chemins de couverture ?

Accepted Answer

Non. Le coût des tentatives internes, de la couverture et du réchauffement du cache est à notre charge. Vous ne payez que pour l'entrée que vous recevez réellement + le résultat final. Il existe un outil de rapprochement dans le backend de gestion pour visualiser la répartition complète.

Question 5

Qu’est-ce que la remise sur le cache ?

Accepted Answer

Les accès au cache (exacts ou sémantiques) sont facturés à 25 % du prix régulier. Répéter une question coûte 75 % moins cher la deuxième fois. Nous utilisons également la mise en cache des invites en amont (OpenAI / Anthropic / DeepSeek) en interne, et l'argent économisé a été reflété dans le prix forfaitaire.

Question 6

Puis-je utiliser le SDK OpenAI ?

Accepted Answer

Peut. Notre API est entièrement compatible avec OpenAI. Pointez l'url base_url du SDK vers notre passerelle, model=nexevo/balanced, et commencez à l'utiliser. Les appels de fonctions, le streaming et les entrées visuelles sont tous disponibles sans aucun changement.

Question 7

Mes données seront-elles utilisées pour la formation ?

Accepted Answer

Non. Nous transmettons les demandes selon les conditions « pas pour formation » du fabricant en amont. Vos invites et réponses ne sont pas conservées pour l’amélioration du modèle.

Question 8

Vers quels modèles vous dirigez-vous ?

Accepted Answer

OpenAI, Anthropic, Google, DeepSeek, Mistral, xAI, Tongyi, Moonshot, Zhipu, Cohere, Together, Fireworks, Groq, Cerebras, Perplexity, SiliconFlow — plus de 60 modèles au total. Nous continuons à intégrer de nouveaux modèles dans le backend et votre code ne subira aucune modification.

FAQ