Soalan Lazim
Penjelasan tentang enjin penjadualan yang dibangunkan sendiri, harga dan cara kami mengurangkan kos.
Mengapa anda tidak membenarkan saya memilih model?
Kerana memilih model adalah tugas, dan sukar untuk memilih dengan tepat secara manual. Enjin penjadualan kami yang dibangunkan sendiri mempunyai lima modul algoritma utama (pengiktirafan niat, klasifikasi kesukaran L1-L5, penghalaan pintar, penilaian kualiti, kemerosotan pemutus litar). Ia menilai kesukaran dan mengklasifikasikan niat setiap permintaan, dan kemudian memilih yang paling murah daripada kumpulan model yang layak. Untuk tugasan mudah L1, gunakan Qwen-Turbo ($0.20/M), untuk penaakulan mendalam L4, gunakan GPT-4o-mini atau DeepSeek-Reasoner, dan untuk tugasan kompleks L5, gunakan GPT-4o / Claude Sonnet - automatik sepenuhnya dan berasas.
Apakah perbezaan daripada OpenRouter / gerbang pengagregatan am?
Kebanyakan gerbang pengagregatan adalah proksi nipis untuk "anda nyatakan nama model → kami memajukannya." Kami tidak - kami menggunakan enjin penjadualan kami yang dibangunkan sendiri untuk menilai kesukaran dan menganalisis niat setiap permintaan, dan kemudian membuat keputusan berdasarkan "model termurah yang memenuhi ambang kualiti". Dimensi keupayaan ialah skor komprehensif penanda aras luar negara (HumanEval/MMLU-Pro/MATH/MT-Bench) dan penanda aras Cina (OpenCompass/SuperCLUE/CMMLU) dengan berat 60/40 dan tidak dilaporkan sendiri oleh pengilang.
Berapa banyak yang anda boleh simpan?
Mengikut model kos campuran kami: 80% daripada trafik adalah sembang harian yang disampaikan oleh model cekap (kira-kira $0.40/1J input), 20% ialah trafik keras yang disampaikan oleh model perdana (kira-kira $8/1J). Harga rata anda ialah $3/$12. Berbanding dengan sentiasa membeli model perdana, anda boleh menjimatkan 40~56% bergantung pada gabungan isu.
Adakah saya perlu membayar untuk percubaan semula dan laluan lindung nilai?
Tidak. Kos percubaan semula dalaman, lindung nilai dan pemanasan cache ditanggung oleh kami. Anda hanya membayar untuk input yang sebenarnya anda terima + output akhir. Terdapat alat penyelarasan dalam bahagian belakang pengurusan untuk melihat pecahan lengkap.
Apakah diskaun cache?
Hit cache (tepat atau semantik) dicaj pada 25% daripada harga biasa. Mengulang soalan adalah 75% lebih murah untuk kali kedua. Kami juga menggunakan caching segera huluan (OpenAI / Anthropic / DeepSeek) secara dalaman, dan wang yang disimpan telah ditunjukkan dalam harga rata.
Bolehkah saya menggunakan OpenAI SDK?
boleh. API kami serasi sepenuhnya dengan OpenAI. Halakan base_url SDK ke gerbang kami, model=nexevo/balanced, dan mula menggunakannya. Panggilan fungsi, penstriman dan input visual semuanya tersedia tanpa perubahan sifar.
Adakah data saya akan digunakan untuk latihan?
Tidak. Kami memajukan permintaan mengikut syarat "bukan untuk latihan" pengeluar huluan. Gesaan dan respons anda tidak disimpan untuk penambahbaikan model.
Model manakah yang anda tuju?
OpenAI, Anthropic, Google, DeepSeek, Mistral, xAI, Tongyi, Moonshot, Zhipu, Cohere, Together, Fireworks, Groq, Cerebras, Perplexity, SiliconFlow — 60+ model kesemuanya. Kami terus menyepadukan model baharu di bahagian belakang dan kod anda akan mempunyai sifar perubahan.