Question 1

¿Por qué no me dejas elegir un modelo?

Accepted Answer

Porque seleccionar un modelo es una tarea ardua y es difícil seleccionarlo con precisión manualmente. Nuestro motor de programación de desarrollo propio tiene cinco módulos de algoritmos principales (reconocimiento de intenciones, clasificación de dificultad L1-L5, enrutamiento inteligente, evaluación de calidad, degradación de disyuntores). Califica la dificultad y clasifica la intención de cada solicitud, y luego selecciona la más barata del grupo de modelos calificados. Para tareas simples de L1, use Qwen-Turbo ($0.20/M), para razonamiento profundo de L4, use GPT-4o-mini o DeepSeek-Reasoner, y para tareas complejas de L5, use GPT-4o / Claude Sonnet: completamente automático y bien fundamentado.

Question 2

¿Cuál es la diferencia con OpenRouter/puerta de enlace de agregación general?

Accepted Answer

La mayoría de las puertas de enlace de agregación son proxies ligeros para "usted especifica el nombre del modelo → lo reenviamos". Nosotros no: utilizamos nuestro motor de programación de desarrollo propio para calificar la dificultad y analizar la intención de cada solicitud, y luego tomar decisiones basadas en el "modelo más barato que cumpla con el umbral de calidad". La dimensión de capacidad es la puntuación integral de los puntos de referencia extranjeros (HumanEval/MMLU-Pro/MATH/MT-Bench) y los puntos de referencia chinos (OpenCompass/SuperCLUE/CMMLU) con una ponderación de 60/40, y el fabricante no los informa.

Question 3

¿Cuánto puedes ahorrar?

Accepted Answer

Según nuestro modelo de costos mixtos: el 80% del tráfico es chat diario atendido por el modelo eficiente (aproximadamente $0,40/1 millón de entrada), el 20% es tráfico duro atendido por el modelo insignia (aproximadamente $8/1 millón). Su precio fijo es $3/$12. En comparación con comprar siempre el modelo insignia, puede ahorrar entre un 40% y un 56% dependiendo de la combinación de problemas.

Question 4

¿Tengo que pagar por los reintentos y las rutas de cobertura?

Accepted Answer

No. El costo de los reintentos internos, la cobertura y el calentamiento de caché corremos a cargo de nosotros. Solo paga por los insumos que realmente recibe + el resultado final. Hay una herramienta de conciliación en el backend de administración para ver el desglose completo.

Question 5

¿Qué es el descuento en caché?

Accepted Answer

Los hits de caché (exactos o semánticos) se cobran al 25% del precio normal. Repetir una pregunta es un 75% más barato la segunda vez. También utilizamos internamente el almacenamiento en caché de avisos ascendentes (OpenAI/Anthropic/DeepSeek), y el dinero ahorrado se ha reflejado en el precio fijo.

Question 6

¿Puedo utilizar el SDK de OpenAI?

Accepted Answer

Puede. Nuestra API es totalmente compatible con OpenAI. Apunte la base_url del SDK a nuestra puerta de enlace, model=nexevo/balanced, y comience a usarlo. La llamada de funciones, la transmisión y la entrada visual están disponibles sin cambios.

Question 7

¿Mis datos se utilizarán para la formación?

Accepted Answer

No. Reenviamos las solicitudes según las condiciones "no para formación" del fabricante. Sus indicaciones y respuestas no se conservan para mejorar el modelo.

Question 8

¿A qué modelos te diriges?

Accepted Answer

OpenAI, Anthropic, Google, DeepSeek, Mistral, xAI, Tongyi, Moonshot, Zhipu, Cohere, Together, Fireworks, Groq, Cerebras, Perplexity, SiliconFlow: más de 60 modelos en total. Seguimos integrando nuevos modelos en el backend y su código no tendrá cambios.

Preguntas frecuentes