FAQ
Eine Erklärung der selbst entwickelten Planungs-Engine, des Preises und wie wir die Kosten niedrig halten.
Warum lässt du mich nicht ein Modell auswählen?
Denn die Auswahl eines Modells ist mühsam und es ist schwierig, manuell eine genaue Auswahl zu treffen. Unsere selbst entwickelte Planungs-Engine verfügt über fünf Hauptalgorithmusmodule (Absichtserkennung, Schwierigkeitsklassifizierung L1-L5, intelligentes Routing, Qualitätsbewertung, Leistungsschalterverschlechterung). Es bewertet den Schwierigkeitsgrad, klassifiziert die Absicht jeder Anfrage und wählt dann die günstigste aus dem qualifizierten Modellpool aus. Verwenden Sie für einfache L1-Aufgaben Qwen-Turbo (0,20 $/M), für L4 Deep Reasoning GPT-4o-mini oder DeepSeek-Reasoner und für komplexe L5-Aufgaben GPT-4o / Claude Sonnet – vollautomatisch und fundiert.
Was ist der Unterschied zu OpenRouter/General Aggregation Gateway?
Die meisten Aggregation-Gateways sind Thin-Proxys für „Sie geben den Modellnamen an → wir leiten ihn weiter.“ Das ist bei uns nicht der Fall – wir verwenden unsere selbstentwickelte Planungs-Engine, um den Schwierigkeitsgrad einzustufen und die Absicht jeder Anfrage zu analysieren, und treffen dann Entscheidungen auf der Grundlage des „billigsten Modells, das den Qualitätsschwellenwert erfüllt“. Die Fähigkeitsdimension ist die Gesamtpunktzahl des ausländischen Benchmarks (HumanEval/MMLU-Pro/MATH/MT-Bench) und des chinesischen Benchmarks (OpenCompass/SuperCLUE/CMMLU) mit einer Gewichtung von 60/40 und wird nicht vom Hersteller selbst angegeben.
Wie viel können Sie sparen?
Nach unserem gemischten Kostenmodell: 80 % des Traffics sind tägliche Chats, die vom effizienten Modell bedient werden (ca. 0,40 $/1 Mio. Input), 20 % sind harter Traffic, der vom Flaggschiff-Modell bedient wird (ca. 8 $/1 Mio.). Ihr Pauschalpreis beträgt 3 $/12 $. Im Vergleich zum Kauf des Flaggschiffmodells können Sie je nach Kombination der Probleme 40 bis 56 % sparen.
Muss ich für Wiederholungsversuche und Absicherungspfade bezahlen?
Nein. Die Kosten für interne Wiederholungsversuche, Absicherung und Cache-Erwärmung werden von uns getragen. Sie zahlen nur für den Input, den Sie tatsächlich erhalten, + den Endoutput. Im Management-Backend gibt es ein Abgleichstool, um die vollständige Aufschlüsselung anzuzeigen.
Was ist ein Cache-Rabatt?
Cache-Treffer (exakt oder semantisch) werden mit 25 % des regulären Preises berechnet. Das Wiederholen einer Frage ist beim zweiten Mal 75 % günstiger. Wir nutzen auch intern Upstream-Prompt-Caching (OpenAI/Anthropic/DeepSeek) und das eingesparte Geld spiegelt sich im Pauschalpreis wider.
Kann ich OpenAI SDK verwenden?
Kann. Unsere API ist vollständig kompatibel mit OpenAI. Richten Sie die base_url des SDK auf unser Gateway, model=nexevo/balanced, und beginnen Sie mit der Verwendung. Funktionsaufrufe, Streaming und visuelle Eingaben sind ohne Änderungen verfügbar.
Werden meine Daten für Schulungen verwendet?
Nein. Wir leiten Anfragen gemäß den „Nicht für Schulungen“-Bedingungen des vorgeschalteten Herstellers weiter. Ihre Eingabeaufforderungen und Antworten werden nicht zur Modellverbesserung gespeichert.
Zu welchen Modellen leiten Sie weiter?
OpenAI, Anthropic, Google, DeepSeek, Mistral, xAI, Tongyi, Moonshot, Zhipu, Cohere, Together, Fireworks, Groq, Cerebras, Perplexity, SiliconFlow – insgesamt über 60 Modelle. Wir integrieren weiterhin neue Modelle in das Backend und Ihr Code wird keinerlei Änderungen erfahren.