Sessions + Prompts library + Datasets: o stack LLM ops da Tokia
Tokia agora tem paridade com LangSmith/Helicone: agrupe requests por conversa via x-tokia-session-id, salve templates versionados com {{var}}, rode eval em N modelos lado-a-lado + LLM-as-judge. Tudo em BRL, sem mensalidade.
A diferença entre fazer chamadas de LLM e operar LLMs em produção está no que vem antes (prompt) e depois (debug, custo, comparação). Tokia acabou de fechar esse gap. 3 features novas, todas em PIX BRL, sem mensalidade:
1. Sessions — agrupe requests da mesma conversa
Adiciona um header x-tokia-session-id: <uuid> em cada
POST /v1/chat/completions da mesma conversa. O dashboard agrupa
automaticamente:
from openai import OpenAI
import uuid
tokia = OpenAI(api_key="sk-...", base_url="https://api.usetokia.com/v1")
session_id = str(uuid.uuid4()) # 1 UUID por conversa
for msg in conversation:
resp = tokia.chat.completions.create(
model="gpt-4o-mini",
messages=msg,
extra_headers={"x-tokia-session-id": session_id},
)
Em /dashboard/sessions você vê 1 entrada por conversa em vez de N
linhas soltas — com custo total, tokens, modelos usados, duração e link
pra eventos individuais.
Quando usar: chatbots, agentes multi-step, jobs em batch, MCP clients. Qualquer coisa que faça >1 chamada da mesma "unidade de negócio".
2. Prompts library — templates versionados + playground
Salve seus prompts em /dashboard/prompts/new com variáveis
{{nome_var}}:
Crie uma descrição de produto pra ecommerce:
Produto: {{nome}}
Diferenciais: {{diferenciais}}
Público: {{publico}}
Cada edição que muda o body cria uma nova versão (append-only). Histórico completo navegável. Playground integrado roda o prompt com modelo escolhido e mostra a resposta + link pra session detalhada.
Bonus: export pra curl/Python/Tokia SDK com um clique. Clone com um clique pra criar variações A/B.
3. Datasets + Evals — compare modelos lado-a-lado
A feature que faltava pra você sair do "achismo" sobre qual modelo usar.
- Crie dataset em
/dashboard/datasets/new - Importe items via CSV/JSON/manual (até 1.000 por importação) com
pares
input+expected - Escolha um prompt (da library ou inline) + 1-5 modelos pra comparar
- Opcional: LLM-as-judge auto-scoring — modelo julgador
(recomendado:
claude-sonnet-46) avalia cada output 0-100 vs expected - Resultados aparecem lado-a-lado com custo, latência, taxa de sucesso e score
Cada chamada cria uma session com prefixo eval-... que aparece em
/dashboard/sessions — rastreável fim-a-fim.
Por que isso importa: trocar gpt-4o-mini por gemini-flash pode
economizar 60% do custo sem perda perceptível de qualidade — mas você
nunca vai descobrir sem rodar comparação cega em dataset real seu.
Tudo integrado com o resto da Tokia
- Cobra do mesmo saldo BRL (sem assinatura)
- Aparece no
/dashboard/usageagregado - Funciona com qualquer API key Tokia (não precisa key específica)
- Recomendado pra eval/dev: usar modelo
test-free(gpt-oss-120b), custo R$ 0,00
Setup em 60 segundos
# 1) Recarrega R$ 10 PIX em usetokia.com/dashboard/billing
# 2) Cria API key em /dashboard/keys
# 3) Cola seus prompts em /dashboard/prompts/new
# 4) Importa dataset em /dashboard/datasets/new
# 5) Rode eval com 2-3 modelos
Sem cartão internacional, sem IOF, com NF brasileira automática.
Documentação completa: /docs/sessions,
/docs/prompts.
Quer testar Tokia com R$ 10 via PIX?
Criar conta grátis →