API 문서 · OpenAI 호환 /v1/chat/completions

#빠른 시작

OpenAI 호환 SDK의 base_url을 게이트웨이에 지정하고 호출을 시작하세요. 첫 번째 응답은 일반적으로 몇 초 내에 돌아옵니다.

from openai import OpenAI

client = OpenAI(
    api_key="sk-xc-your-key-here",
    base_url="https://api.nexevo.ai/v1",
)

resp = client.chat.completions.create(
    model="nexevo/balanced",
    messages=[{"role": "user", "content": "Hello!"}],
)
print(resp.choices[0].message.content)

#인증

키 페이지에서 API 키를 생성하고 이를 Bearer 토큰 형식으로 Authorization 헤더에 넣습니다. 모든 요청에는 합법적인 키가 필요합니다. 취소되거나 만료된 키는 즉시 거부됩니다.

http

GET /v1/billing/balance HTTP/1.1
Host: api.nexevo.ai
Authorization: Bearer sk-xc-abc123...

단일 키 설정(하위 할당량/IP 화이트리스트/모델 제한/만료)은 키 페이지에서 구성할 수 있습니다. 다양한 애플리케이션이나 환경에 제한된 범위의 키를 발급하는 데 사용됩니다.

프런트 엔드에 키를 하드코딩하지 마세요.

API 키는 비밀번호와 동일하며 백엔드 서버에서만 사용할 수 있습니다. 브라우저/클라이언트에서 sk-xc-*가 직접 노출되는 것을 방지하려면 프런트엔드/모바일 앱을 자체 중간 계층을 통해 호출해야 합니다.

#대화 완성

OpenAI 표준 메시지 형식을 사용하여 /v1/chat/completions에 POST합니다. model=nexevo/balanced를 사용하면 귀하의 질문에 따라 가장 적절한 업스트림으로 자동 라우팅됩니다. 온도 / max_tokens / top_p / stop과 같은 표준 매개변수도 지원됩니다.

python

resp = client.chat.completions.create(
    model="nexevo/balanced",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user",   "content": "Explain quantum entanglement"},
    ],
    temperature=0.7,
    max_tokens=500,
)
print(resp.choices[0].message.content)

Parameters

model	`string`	Required	호출할 모델 ID, 예: `gpt-4o` / `claude-opus-4-7`.<br/>스마트 라우팅 별칭: `nexevo/fast` / `nexevo/balanced` / `nexevo/auto`.전체 121개 모델 보기 →
messages	`Message[]`	Required	OpenAI 标准对话历史。`{role, content}` 数组,role ∈ system/user/assistant/tool。
stream	`boolean`	Default: `false`	开启 SSE 流式;返回 `ChatCompletionChunk` 序列,需用 SSE 解析器消费。
temperature	`number`	Default: `1`	采样温度,0-2。低 = 确定性 / 代码;高 = 创意。
max_tokens	`integer`	Optional	单次响应最大 token。不设则用模型默认。
top_p	`number`	Default: `1`	核采样阈值。一般 temperature OR top_p 二选一。
tools	`Tool[]`	Optional	OpenAI function calling 标准 tools 数组。详见 Function calling 节。
tool_choice	`"auto" \| "none" \| object`	Optional	工具选择策略;指定具体 tool 名可强制调用。
response_format	`object`	Optional	JSON 模式或 Schema 严格模式: `{type: "json_object"}` 或 `{type: "json_schema", json_schema: {...}}`。
models	`string[]`	Optional	Nexevo 扩展:多模型 fallback 列表。主 model 失败按顺序尝试,大幅提升可用性。
provider	`ProviderPreference`	Optional	Nexevo 扩展:路由偏好,如 `{order: ["groq"], allow_fallbacks: true}`。
max_price	`MaxPrice`	Optional	Nexevo 扩展:成本上限 USD,如 `{prompt: 0.01, completion: 0.05}`。超价直接拒绝。

#스트리밍 응답

stream=true라고 가정하면 추가 지연을 최소화하면서 업스트림 SSE 토큰을 토큰별로 전달합니다. 스트림은 `data: [DONE]`으로 끝납니다. 도구 호출은 tool_calls delta를 통해 반환됩니다. 이는 OpenAI 형식과 정확히 동일합니다.

python

stream = client.chat.completions.create(
    model="nexevo/balanced",
    messages=[{"role": "user", "content": "Write a haiku."}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)

#함수 호출

`tools` 배열(JSON 스키마 설명 함수)을 전달합니다. 모델이 도구를 호출하기로 결정하면 `tool_calls`를 반환합니다. OpenAI 표준 프로세스와 동일하게 함수를 로컬에서 실행하고 결과를 도구 역할 메시지로 추가한 다음 API를 다시 호출합니다.

python

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Get the weather for a city",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"],
        },
    },
}]

resp = client.chat.completions.create(
    model="nexevo/balanced",
    messages=[{"role": "user", "content": "What's the weather in Tokyo?"}],
    tools=tools,
)
tool_call = resp.choices[0].message.tool_calls[0]
print(tool_call.function.name, tool_call.function.arguments)

#이미지 / 비디오 / 3D 생성

Nexevo 생성 게이트웨이는 8개 공급자 22개 모델을 통합 — 이미지, 비디오, 3D. 이미지는 동기 (URL 또는 base64 반환); 비디오 / 3D는 job_id 폴링으로 비동기 (SDK는 generate_and_wait 헬퍼 제공). Sora 2 / Veo 3 / Runway 비디오는 24시간 서명 URL을 위해 OSS로 자동 미러링. 실행 가능한 예제는 /cookbook의 Generation 카테고리 참조.

python

# 1) 文生图(同步)— DALL-E 3 / Imagen 4 / FLUX
img = client.images.generate(
    model="nexevo/image-balanced",       # or "dall-e-3" / "imagen-4-ultra" / "flux-pro"
    prompt="a serene Japanese garden in cyberpunk style",
    n=1, size="1024x1024",
)
print(img["data"][0]["url"])

# 2) 文生视频(异步)— Sora 2 / Veo 3 / Wan 2.6
job = client.videos.generate_and_wait(
    model="sora-2",                          # or "veo-3" / "wan-2.6"
    prompt="a cat skating in neon Tokyo",
    duration_sec=5, aspect_ratio="16:9",
    poll_interval_sec=5, timeout_sec=600,
)
print(job["results"][0]["url"])              # OSS 24h signed URL

# 3) 3D 资产 — Hunyuan 3D 直连
asset = client.models3d.generate_and_wait(
    model="hunyuan-3d-2", prompt="a low-poly viking longboat",
    output_format="glb",
)
print(asset["results"][0]["url"])

# 4) 图生视频 — Runway Gen-4 需先上传参考图
with open("char.png", "rb") as f:
    up = client.generation.uploads.upload(
        f.read(), filename="char.png", content_type="image/png",
    )
job = client.videos.generate_and_wait(
    model="runway-gen4",
    prompt="zoom in slowly while waves crash",
    duration_sec=5,
    reference_image_url=up["url"],
)

POST /v1/images/generations · 同步

model	`string`	Required	模型 id,如 `nexevo/image-balanced` / `dall-e-3` / `imagen-4-ultra` / `flux-pro`。完整 22 模型见 `GET /generation/models`。
prompt	`string`	Required	文本描述,最多 4000 字符。
n	`integer`	Default: `1`	生成数量,1-10。Imagen 上限 4,DALL-E 3 仅 1。
size	`string`	Default: `1024x1024`	尺寸,常见 `1024x1024` / `1792x1024` / `1024x1792`;Imagen 自动映射到 aspectRatio。
quality	`"standard" \| "hd"`	Optional	仅 DALL-E 3 / gpt-image-1 用。`hd` 价格×2,细节更好。
reference_image_b64	`string`	Optional	图生图用,base64 PNG / JPG。OpenAI gpt-image-1 / FLUX 支持;DALL-E 3 不支持。
negative_prompt	`string`	Optional	不想要的元素描述。OpenAI 自动忽略,Replicate / Wan 用。
seed	`integer`	Optional	确定性种子,同 prompt + seed 出同图(部分 provider)。

POST /v1/videos/generations · 异步,返 {job_id, status}

model	`string`	Required	`sora-2` / `sora-2-pro` / `veo-3` / `veo-3-fast` / `wan-2.6` / `wan-2.6-pro` / `runway-gen4` / `nexevo/video-{fast\|balanced\|pro}`。
prompt	`string`	Required	视频文本描述。
duration_sec	`number`	Default: `5`	视频时长,1-30 秒。Sora 2 / Veo 3 推荐 5-10。
aspect_ratio	`string`	Default: `"16:9"`	`16:9` / `9:16` / `1:1` / `4:3` / `3:4`。
reference_image_url	`string`	Optional	图生视频参考图(https URL)。Runway Gen-4 强制必传;Wan 2.6 用作首帧。先调 `POST /v1/generation/upload` 拿 OSS URL。
negative_prompt	`string`	Optional	Wan / Replicate / Veo 用。
seed	`integer`	Optional	确定性种子(部分 provider)。

POST /v1/3d/generations · 异步

model	`string`	Required	`hunyuan-3d-2` / `hunyuan-3d-2-pro` / `nexevo/3d-{fast\|balanced}`。
prompt	`string`	Optional	文本描述(prompt 或 reference_image_url 二选一)。
reference_image_url	`string`	Optional	图生 3D 参考图(https URL)。
output_format	`string`	Default: `"glb"`	`glb` / `obj` / `usdz` / `stl` / `fbx`。

POST /v1/generation/upload · multipart,返 OSS 签名 URL

file multipart file Required multipart/form-data 字段名 file,PNG / JPG / WebP / GIF,≤ 10 MB。

GET /v1/generation/jobs/{job_id} · poll(SDK 自动)

id	`string`	Optional	Nexevo 内部 job_id(gen_xxxx)。
status	`"pending" \| "running" \| "succeeded" \| "failed" \| "canceled"`	Optional	异步任务状态。
progress	`number`	Optional	0-100,部分 provider(Replicate / Veo)实时报。
results	`GenResult[]`	Optional	完成后含 `{ url, b64_json, mime_type, duration_ms, ... }`。Sora 2 / Veo 3 / Runway 自动镜像到 OSS,URL 24h 有效。
charged_usd	`string`	Optional	扣费金额(完成时填入)。
error	`object \| null`	Optional	失败时含 `{ code, message, retryable }`。

Tip

수동 폴링 대신 SDK의 generate_and_wait 사용: client.videos.generate_and_wait(model='sora-2', prompt='...', duration_sec=5) — 기본 5초 폴링 간격, 10분 타임아웃, 실패 시 TimeoutError 발생.

#Embeddings · 텍스트 벡터화

텍스트를 고정 차원 벡터로 압축하여 RAG 검색에 사용. OpenAI 호환. 입력 토큰당 청구 ($0.02-$0.13/1M).

# OpenAI 兼容 schema — 把 OpenAI client 的 base_url 改成我们的就能用
resp = client.embeddings.create(
    model="text-embedding-3-large",      # 也可写 voyage-3 / jina-embeddings-v3 / bge-m3
    input="Nexevo.ai 是一个 LLM 网关",         # 或 list[str] 批量
)
vec = resp["data"][0]["embedding"]       # 3072 个浮点数
print(len(vec), resp["usage"]["prompt_tokens"])

# 智能路由 — admin 可后台改路由目标,你的代码不用改
resp = client.embeddings.create(
    model="nexevo/embed-balanced",    # 智能路由 = voyage-3(默认)
    input=["doc 1...", "doc 2...", "doc 3..."],
)
for row in resp["data"]:
    print(row["index"], len(row["embedding"]))

POST /v1/embeddings

model	`string`	Required	客户面 model id。可填:`text-embedding-3-large` / `text-embedding-3-small` / `voyage-3-large` / `voyage-3` / `jina-embeddings-v3` / `bge-m3` / `embed-multilingual-v3.0`;或智能路由 `nexevo/embed-fast` / `nexevo/embed-balanced`。
input	`string \| string[]`	Required	单段文本或批量(批量上限取决于 provider,通常 100-2048)。
encoding_format	`"float" \| "base64"`	Default: `"float"`	返回向量的编码;base64 体积小但需要客户端 decode。
dimensions	`integer`	Optional	降维向量维度。仅 `text-embedding-3-*` / `jina-embeddings-v3` 支持。
user	`string`	Optional	tenant 标识,审计与速率限制用。

공급자 선택?

중국어: BGE-m3. 영어: Voyage-3. 다국어: Jina-v3.

#Rerank · RAG 2단계 재정렬

embedding 검색의 상위 50을 상위 5로 재정렬. RAG 정확도의 핵심.

# RAG 第二段:把 embedding 召回的 top-50 候选重排,只留 top-5 最相关
ranked = client.rerank.create(
    model="rerank-v3.5",                 # 也可 jina-reranker-v2-base / bge-reranker-v2
    query="如何重置员工 VPN?",
    documents=top50_docs,                # list[str] 或 list[{"text": "..."}]
    top_n=5,
)
for r in ranked["results"]:
    print(r["relevance_score"], r["document"][:60])

POST /v1/rerank

model	`string`	Required	客户面 model id:`rerank-v3.5`(Cohere)/ `rerank-multilingual-v3.0` / `jina-reranker-v2-base` / `bge-reranker-v2` / `nexevo/rerank-fast` / `nexevo/rerank-balanced`。
query	`string`	Required	检索 query / 用户问题。
documents	`string[] \| object[]`	Required	候选文档列表,通常来自 embedding 检索 top-50。可以是 string 或 `{"text": "..."}`。
top_n	`integer`	Optional	排序后保留前 N 条。不设则全返(已排序)。
return_documents	`boolean`	Default: `true`	返回时是否包含原文。设 false 只返 index + score 节流。

reranker 선택?

영어: Cohere v3.5. 중국어: BGE-reranker-v2. 가성비: Jina-v2.

#전체 RAG 파이프라인

embeddings + rerank + chat. 10k 문서 ~$0.06 vs ~$5+ 직접 프롬프트.

python

# 完整 RAG 三段:embedding 召回 → rerank 精排 → chat 答题
# 总成本 ~$0.06 vs 直接塞 1 万篇文档给 chat ~$5+(差 100x)

from nexevo_ai import Nexevo
client = Nexevo()

# ── 1. 离线索引(只跑一次)──
all_docs = ["...", "...", ...]   # 1 万篇文档
emb_resp = client.embeddings.create(model="bge-m3", input=all_docs)
vectors = [d["embedding"] for d in emb_resp["data"]]
# (省略向量库存取代码 — 用 Pinecone / Milvus / pgvector 都行)

# ── 2. 用户提问时(每次请求触发)──
question = "如何重置员工 VPN?"

# 2a) embed 问题 → 检索 top-50
q_emb = client.embeddings.create(model="bge-m3", input=question)
top50 = vector_db.query(q_emb["data"][0]["embedding"], k=50)

# 2b) rerank top-50 → top-5 最相关
ranked = client.rerank.create(
    model="rerank-v3.5",
    query=question,
    documents=[d.text for d in top50],
    top_n=5,
)["results"]
top5 = [top50[r["index"]] for r in ranked]

# 2c) chat 用 top-5 答题
context = "\n\n".join(d.text for d in top5)
ans = client.chat.completions.create(
    model="nexevo/balanced",
    messages=[
        {"role": "system",
         "content": f"基于以下材料答题(只能用这些材料,不要编):\n\n{context}"},
        {"role": "user", "content": question},
    ],
)
print(ans.choices[0].message.content)

벡터 DB?

소규모: pgvector. 중규모: Qdrant / Weaviate. 대규모: Pinecone / Milvus.

#Agents · Agent-as-a-Service

고수준 작업을 agent에 위임 — 자동으로 단계 분해, tool 호출, 답변까지 반복. 내장 tool: rag_search + list_models. 동기/비동기 모드 + SSE 스트리밍.

from nexevo_ai import Nexevo
client = Nexevo()

# 1) 同步模式(默认 wait=True)— 阻塞等结果,deadline 默认 120s,可调到 3600s
job = client.agents.run(
    task="找一个最便宜的中文 RAG embedding 模型,告诉我维度和单价",
    model="nexevo/balanced",        # chat brain,可换 claude / gpt-5 等
    max_steps=10,
)
print(job["result"])
# Agent 内部会:
#   step 1: chat → tool_call list_models(kind=embedding, modality 多语言)
#   step 2: tool_result 返 BGE-m3 / Jina-v3 等候选
#   step 3: chat 综合 → final_answer "BGE-m3 1024 维,$0.07/1M"

# 2) 给 RAG 任务预加载文档
job = client.agents.run(
    task="基于这些资料答:如何重置员工 VPN?",
    rag_documents=[
        "VPN 服务器列表请联系 IT 支持...",
        "重置 VPN 密码需要登录员工门户...",
        # ... 上千条
    ],
    tools=["rag_search"],
)

# 3) 异步任务(长任务推荐)
submitted = client.agents.run(task="复杂调研任务...", wait=False)
job = client.agents.run_and_wait(submitted["id"], timeout_sec=300)

# 4) Memory tools(2026-04-29 P4 v2)— LLM 主动读写工作记忆 / 长期记忆
#    任务级 memory:节点之间共享中间事实(避免 prompt 拼接爆炸)
#    tenant 级 memory:跨任务的"上次客户做过 X" 让 agent 第二次更聪明
#    工具自动注入,LLM 调用 memory_read({level:"task", key:"..."}) 即可

POST /v1/agents/run · POST /v1/agents/run/stream(SSE)

task	`string`	Required	用户面任务描述。Agent 内部 LLM brain 拿这个当 user message 起循环。
model	`string`	Default: `"nexevo/balanced"`	Agent 大脑(chat completion 模型)。可换 `claude-opus-4-7` / `gpt-5` / `nexevo/fast` 等。
tools	`string[]`	Optional	启用的内置 tool 名;不填 = 全部启用。内置:`rag_search` / `list_models` / `web_search` / `generate_image` / `python_exec` / `spawn_agent` / `memory_read` / `memory_write`。
max_steps	`integer`	Default: `10`	最多循环几步;防 LLM 死循环。上限 30。
rag_documents	`string[]`	Optional	`rag_search` tool 启动时预加载的文档,内部用 BGE-m3 embed + rerank-v3.5 精排。
system_prompt	`string`	Optional	覆盖默认 agent 系统提示。
wait	`boolean`	Default: `true`	同步阻塞等结果(`true`,默认 deadline 120s,可调上限 3600s)/ 异步立返 `task_id` 后客户走 `GET /v1/tasks/{id}` poll(`false`,长任务推荐)。
timeout_sec	`integer`	Default: `120`	仅 `wait=true` 时生效,超时返当前状态(可能仍 running),客户后续 poll。上限 3600s。
enable_verifier	`boolean`	Default: `false`	final_answer 出来后跑 cheap-model 多维度评估(factuality / relevance / completeness / safety),overall < threshold → `verifier_passed=false`。
verifier_threshold	`float`	Default: `0.7`	verifier overall 分数低于此值标 failed。建议 0.6-0.8。
max_cost_usd	`float`	Optional	软告警上限 — 估算累计花费超此值时 emit `budget_warning` step,任务继续;真正硬门 = 账户余额。避免估算误差导致误杀。

SSE 스트리밍 — 실시간 단계 이벤트

python

# 流式 — 实时拿每步事件,边跑边看
for ev in client.agents.run_stream(task="..."):
    if ev["type"] == "step":
        s = ev["step"]
        if s["type"] == "tool_call":
            print(f"→ 调用 {s['tool_name']}({s['tool_input']})")
        elif s["type"] == "tool_result":
            print(f"  ← {s['tool_output']}")
        elif s["type"] == "final_answer":
            print(f"\n答:{s['content']}")
    elif ev["type"] == "done":
        print(f"\n总 token: in={ev['job']['total_tokens_in']}, out={ev['job']['total_tokens_out']}")

agent 언제 사용?

간단한 작업은 chat 직접. 다단계/도구/분해 필요할 때 agent. 5단계 작업 ≈ chat 5번 비용.

/v1/tasks · Task-as-a-Service + Self-Healing v2

/v1/agents/run은 대화형 에이전트. /v1/tasks는 task-as-a-service — Planner(자동 DAG 분해), 다차원 Verifier, Auto-repair 반성 루프, Partial Success 마커 추가. 완전한 Plan→Execute→Evaluate→Adjust→Loop 아키텍처, 성공률 +20-25 pp 예상.

POST /v1/tasks(任务即服务,Self-Healing v2)

goal	`string`	Required	高层任务目标(替代 task)。Planner 拆 DAG 时从这里读。
deliverables	`object[]`	Optional	结构化交付物声明:`[{type:"email", target:"x@y.com"}]` 或 webhook。
budget_usd	`float`	Optional	任务级软告警预算(同 max_cost_usd 语义)。
deadline_sec	`integer`	Default: `120`	任务超时;wait=true 时是同步上限,wait=false 时是后台执行上限。≥10、≤3600。
enable_planner	`boolean`	Default: `false`	用便宜 model(`nexevo/fast` 默认)拆 NL goal → DAG plan,executor 按图并行调度。复杂任务质量提升明显。
planner_model	`string`	Default: `"nexevo/fast"`	Planner 用什么模型(便宜模型够,通常无需改)。
planner_n_candidates	`integer`	Default: `1`	并行生成 N 个候选 plan + 启发评分选优(节点数 / aggregate 唯一性 / tool_call 存在 / 引用合法)。1 单跑 / 2-5 多样性。
auto_repair_max_rounds	`integer`	Default: `0`	Self-Healing:verifier 失败时 → cheap-LLM 反思根因 → 重新 plan + 局部 re-run(checkpoint 复用成功节点)。0 关 / 1-3 启用。期望成功率 +20-25 pp。
autonomy_level	`"L1" \| "L2" \| "L3"`	Default: `"L3"`	L1 启动前一次性确认 / L2 副作用工具(email / webhook / mcp:slack:*)调用前确认 / L3 完全托管。

python

from nexevo_ai import Nexevo
client = Nexevo()

# Self-Healing v2 — 任务自我修复闭环(Plan → Execute → Evaluate → Adjust)
result = client.tasks.submit(
    goal="调研 2025 Q2 全球生成式视频生成 Top 5 厂商,输出对比表(ARR/客户/技术亮点)",
    enable_planner=True,
    planner_n_candidates=3,         # 并行生成 3 个候选 plan,启发选优
    auto_repair_max_rounds=2,       # verifier 失败 → 反思 + 重 plan 最多 2 轮
    deadline_sec=600,               # 长任务给充裕时间
    wait=True,                       # 阻塞拿结果(或 wait=False 异步 poll)
    deliverables=[{"type": "email", "target": "you@company.com"}],
)

# response 含:plan(实际跑的)+ deliverables + verifier 多维分 + partial 标记
print(result["plan"]["nodes"])                  # 看 agent 怎么拆的
print(result["deliverables"][0]["content"])     # 主答
print(result["deliverables"][0]["metadata"])    # verifier 多维分
if result["partial"]:
    print("部分成功节点:", result["succeeded_node_ids"])
    print("失败节点:",   result["failed_node_ids"])

💾 Memory 시스템 (2026-04-29 신규)

2계층 메모리 자동 주입: **작업 레벨 working memory**(노드 간 사실 공유, prompt 비대화 방지) + **tenant 레벨 long-term memory**(작업 간 지식). LLM이 내장 memory_read / memory_write 사용; scope는 백엔드가 api_key로 강제 바인딩 — 테넌트 간 유출 없음.

#대화 기록

채팅 UI의 백엔드 지속성을 위한 선택적 모듈입니다. 각 대화는 제목/메타데이터가 포함된 컨테이너입니다. 추가 메시지는 LLM을 트리거하지 않고 지속됩니다(채팅 완료와 함께 사용됨). 전체 CRUD + 메시지 추가.

python

conv = client.conversations.create(title="My Session")
client.conversations.append_message(
    conv["conversation_id"], role="user", content="Hello!",
)
all_convs = client.conversations.list(limit=20)
detail = client.conversations.get(conv["conversation_id"])

POST /conversations

title	`string`	Optional	对话标题。可后续 update。
metadata	`object`	Optional	任意 JSON,关联你自己的 user_id / session_id / topic 等。最大 4KB。

POST /conversations/{id}/messages

role	`"user" \| "assistant" \| "system" \| "tool"`	Required	消息角色。
content	`string`	Required	消息文本。注意:此 endpoint 只持久化,不触发 LLM。

#계정 관리

등록/로그인/비밀번호 재설정/2FA/프로필 편집/GDPR 셀프 서비스 비활성화. 대부분의 엔드포인트는 웹 애플리케이션 흐름용입니다. 백엔드 통합은 나() / 비밀번호 변경 / 2FA입니다. 모든 보호된 엔드포인트는 Bearer 토큰을 사용합니다.

python

me = client.auth.me()
client.auth.update_profile(full_name="Jane Doe")
client.auth.change_password(
    current_password="old-pwd",
    new_password="new-pwd-123",
)
status = client.auth.two_fa_status()

#API 키 관리

API 키를 동적으로 생성/취소하고 월별 소비 한도(monthly_spend_cap_usd), 임계값 초과 경보 웹훅(HTTPS 전용) 및 지리적 라우팅 정책(cn 전용/해외 전용/임의)을 설정할 수 있습니다. create()는 full_key를 한 번만 반환하므로 반드시 저장하세요.

full_key는 한 번만 표시됩니다.

create()에 의해 반환된 full_key는 sk-xc-... 완전한 문자열이며 Nexevo은 이를 다시 표시하지 않습니다(해시만 저장됨). 생성 즉시 키 관리자나 .env 파일에 저장하세요. 손실된 경우 실행 취소 및 재구축만 가능합니다.

python

new = client.keys.create(name="prod-2026")
print(new["full_key"])  # 只此一次显示

client.keys.update_spend_cap(
    new["key"]["key_id"],
    monthly_spend_cap_usd="100",
)

client.keys.update_alert_webhook(
    new["key"]["key_id"],
    url="https://your-app.com/billing-alert",
)

POST /keys

name string Required Key 显示名(用于在 dashboard 区分)。1-100 字符。

PATCH /keys/{id}/spend-cap

monthly_spend_cap_usd	`string`	Optional	月度上限 USD,字符串保留精度(如 "100.00")。超 cap 后该 key 该月所有请求被拒。
clear	`boolean`	Default: `false`	true = 清除当前 cap(无限额)。

#청구/사용량/충전

잔액, 일일 사용량, 티어별 분류 (by_tier: fast / balanced / passthrough / byok), Stripe 충전. 청구 티어는 요청의 model 필드로 결정 — model=nexevo/fast → fast 정액제; 실제 모델 ID → passthrough +5%. 모든 금액 문자열은 decimal로 처리하세요 — float 파싱 금지.

금액에 문자열을 사용하고,parseFloat를 사용하지 마십시오.

모든 금액(balance_usd / cost / amount_usd)은 원래 정밀도(십진수)를 유지하면서 문자열로 반환됩니다. 직접 parseFloat는 가수를 잃을 수 있으므로 덧셈과 뺄셈을 대신 Decimal/BigNumber 라이브러리를 사용하십시오.

python

bal   = client.billing.balance()
usage = client.billing.usage(days=7)
plan  = client.billing.get_plan()

hint = client.billing.upgrade_hint()
if hint["hint"]:
    print(f"建议: {hint['hint']['recommend_plan']}, "
          f"可省 {hint['hint']['savings_pct']}%")

session = client.billing.checkout(
    amount_usd=20,
    idempotency_key="topup-2026-04-27-001",
)
print(session["checkout_url"])

POST /billing/topup · POST /billing/checkout

amount_usd	`number`	Required	充值金额 USD,> 0。
idempotency_key	`string`	Required	幂等 key,同 key 重试不会重复扣款。建议格式:topup-YYYY-MM-DD-序号。

#조직/여러 사용자

비즈니스 계정의 다중 사용자 관리. 소유자/관리자/개발자, 회원 초대/삭제/소유권 이전의 세 가지 역할을 지원합니다. 모든 키 + 청구서는 조직 이름으로 공유되므로 회사 팀 액세스에 적합합니다.

python

org = client.organizations.create("Acme Inc")

client.organizations.invite_member(
    org["organization"]["org_id"],
    email="dev@acme.com",
    role="developer",
)

members = client.organizations.list_members(org["organization"]["org_id"])

client.organizations.transfer_owner(
    org["organization"]["org_id"],
    new_owner_user_id="u_789",
)

#RLHF 피드백

채팅 응답 헤더 X-Nexevo-Generation-Id에서 Generation_id를 가져오고 추천/비추천 + 선택적 댓글 + 태그를 제출하세요. 피드백은 데이터 플라이휠로 직접 전달되며 자체 학습 라우팅은 이를 사용하여 향후 모델 선택을 최적화합니다.

python

resp = client.chat.completions.create(
    model="nexevo/balanced",
    messages=[{"role": "user", "content": "Hello!"}],
)
gen_id = resp["nexevo"]["generation_id"]

client.feedback.submit(
    generation_id=gen_id,
    rating=1,
    comment="Helpful!",
    tags=["accurate"],
)

summary = client.feedback.summary(days=7)

POST /feedback

generation_id	`string`	Required	从 chat 响应头 `X-Nexevo-Generation-Id` 或 SDK `resp.nexevo.generation_id` 拿。
rating	`1 \| -1`	Required	1 = 👍, -1 = 👎。
comment	`string`	Optional	可选自由文本(最多 ~2K 字符)。
tags	`string[]`	Optional	可选标签。常用: `accurate` / `incorrect` / `too_verbose` / `irrelevant`。

피드백은 자가 학습 라우팅으로 직접 전달됩니다.

제출된 추천/비추천은 단순한 통계가 아닙니다. 자체 학습 라우터(Bandit + ELO)는 이를 사용하여 향후 선택 모델을 실시간으로 조정합니다. 더 많은 피드백 = 제품 품질의 자동 개선.

#오류 처리

오류 형식 정렬 OpenAI: 단일 `error` 객체에는 `message` / `type` / `code`라는 세 가지 필드가 포함됩니다. 공통 코드: `invalid_api_key`(401), `insufficient_balance`(402), `rate_limit_exceeded`(429), `tenant_monthly_quota_exceeded`(429), `upstream_error`(502). 업스트림 5xx에서는 투명하게 다시 시도합니다. 모든 재시도가 실패하는 경우에만 최종 오류가 표시됩니다.

json

{
  "error": {
    "message": "Account balance depleted. Please top up to continue.",
    "type": "insufficient_balance",
    "code": "account_suspended"
  }
}

#비율 제한

키당 기본 60RPM입니다. 제한을 초과하면 'X-RateLimit-Remaining' 및 'X-RateLimit-Reset' 헤더가 첨부된 429가 반환됩니다. 엔터프라이즈 플랜은 상한을 완화할 수 있습니다. 사용자 정의를 위해 당사에 문의하세요.

#응답 헤더

각 응답에는 유용한 메타데이터 헤더가 포함되어 있습니다.

X-Trace-ID	unique request ID, include it in support tickets
X-Usage-Input-Tokens	input tokens counted for billing
X-Usage-Output-Tokens	output tokens counted for billing
X-RateLimit-Remaining	remaining requests in current window
X-RateLimit-Reset	seconds until window resets

#가격

모든 내부 모델에는 통일된 고정 가격이 있습니다. 입력 $3.00/백만 토큰, 출력 $12.00/백만 토큰. 캐시 적중(정확한 + 의미)에는 일반 가격의 25%가 청구됩니다. 재시도 및 헤징 경로 비용은 내부적으로 부담합니다. 최종적으로 확인하게 되는 답변에 대해서만 비용을 지불하면 됩니다.

Pricing page

#SDK 호환성

OpenAI 호환 API를 공개하므로 대부분의 기존 SDK를 변경 없이 사용할 수 있습니다. base_url을 게이트웨이로 지정하면 됩니다.

OpenAI 호환 SDK

OpenAI Python

OpenAI Node.js

LangChain

LlamaIndex

Vercel AI SDK

Curl / HTTP

네이티브 SDK

스마트 라우팅 / 청구 / RLHF 피드백 등 확장을 래핑한 공식 1차 SDK. OpenAI 프로토콜 100% 호환.

Python

nexevo-ai · 동기 + 비동기 + RAG / 생성 리소스

설치

pip install nexevo-aiGitHub 소스

Node.js / TypeScript

@nexevo/sdk · ESM + CJS 듀얼 빌드, 타입 완비

설치

npm install @nexevo/sdkGitHub 소스

OpenAI 에서 2줄로 이전

기존 OpenAI 코드 유지 — api_key만 바꾸고 base_url 추가.

python

from openai import OpenAI

client = OpenAI(
    api_key=os.environ["OPENAI_API_KEY"],
)

resp = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hi"}],
)

이후

python

from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NEXEVO_API_KEY"],
    base_url="https://api.nexevo.ai/v1",
)

resp = client.chat.completions.create(
    model="nexevo/balanced",
    messages=[{"role": "user", "content": "Hi"}],
)

#빠른 시작

#인증

#대화 완성

#스트리밍 응답

#함수 호출

#이미지 / 비디오 / 3D 생성

#Embeddings · 텍스트 벡터화

#Rerank · RAG 2단계 재정렬

#전체 RAG 파이프라인

#Agents · Agent-as-a-Service

SSE 스트리밍 — 실시간 단계 이벤트

/v1/tasks · Task-as-a-Service + Self-Healing v2

#대화 기록

#계정 관리

#API 키 관리

#청구/사용량/충전

#조직/여러 사용자

#RLHF 피드백

#오류 처리

#비율 제한

#응답 헤더

#가격

#SDK 호환성

OpenAI 호환 SDK

네이티브 SDK

OpenAI 에서 2줄로 이전

다음 단계

API 키 받기

모델 라이브러리 찾아보기

요리책의 예