A diferença entre fazer chamadas de LLM e operar LLMs em produção está no que vem antes (prompt) e depois (debug, custo, comparação). Tokia acabou de fechar esse gap. 3 features novas, todas em pix BRL, sem mensalidade:

1. Sessions — agrupe requests da mesma conversa

Adiciona um header x-tokia-session-id: <uuid> em cada POST /v1/chat/completions da mesma conversa. O dashboard agrupa automaticamente:

from openai import OpenAI
import uuid

tokia = OpenAI(api_key="sk-...", base_url="https://api.usetokia.com/v1")
session_id = str(uuid.uuid4())  # 1 UUID por conversa

for msg in conversation:
    resp = tokia.chat.completions.create(
        model="gpt-4o-mini",
        messages=msg,
        extra_headers={"x-tokia-session-id": session_id},
    )

Em /dashboard/sessions você vê 1 entrada por conversa em vez de N linhas soltas — com custo total, tokens, modelos usados, duração e link pra eventos individuais.

Quando usar: chatbots, agentes multi-step, jobs em batch, MCP clients. Qualquer coisa que faça >1 chamada da mesma "unidade de negócio".

2. Prompts library — templates versionados + playground

Salve seus prompts em /dashboard/prompts/new com variáveis {{nome_var}}:

Crie uma descrição de produto pra ecommerce:

Produto: {{nome}}
Diferenciais: {{diferenciais}}
Público: {{publico}}

Cada edição que muda o body cria uma nova versão (append-only). Histórico completo navegável. Playground integrado roda o prompt com modelo escolhido e mostra a resposta + link pra session detalhada.

Bonus: export pra curl/Python/Tokia SDK com um clique. Clone com um clique pra criar variações A/B.

3. Datasets + Evals — compare modelos lado-a-lado

A feature que faltava pra você sair do "achismo" sobre qual modelo usar.

Crie dataset em /dashboard/datasets/new
Importe items via CSV/JSON/manual (até 1.000 por importação) com pares input + expected
Escolha um prompt (da library ou inline) + 1-5 modelos pra comparar
Opcional: LLM-as-judge auto-scoring — modelo julgador (recomendado: claude-sonnet-46) avalia cada output 0-100 vs expected
Resultados aparecem lado-a-lado com custo, latência, taxa de sucesso e score

Cada chamada cria uma session com prefixo eval-... que aparece em /dashboard/sessions — rastreável fim-a-fim.

Por que isso importa: trocar gpt-4o-mini por gemini-flash pode economizar 60% do custo sem perda perceptível de qualidade — mas você nunca vai descobrir sem rodar comparação cega em dataset real seu.

Tudo integrado com o resto da Tokia

Cobra do mesmo saldo BRL (sem assinatura)
Aparece no /dashboard/usage agregado
Funciona com qualquer API key Tokia (não precisa key específica)
Recomendado pra eval/dev: usar modelo test-free (gpt-oss-120b), custo R$ 0,00

Setup em 60 segundos

# 1) Recarrega R$ 25 pix em usetokia.com/dashboard/billing
# 2) Cria API key em /dashboard/keys
# 3) Cola seus prompts em /dashboard/prompts/new
# 4) Importa dataset em /dashboard/datasets/new
# 5) Rode eval com 2-3 modelos

Sem cartão internacional, sem IOF, com NF brasileira automática. Documentação completa: /docs/sessions, /docs/prompts.