Name: Tokia
Price: 25.00 BRL

Datasets (/dashboard/datasets) serve pra medir qualidade antes de trocar de modelo, em vez de chutar, você compara modelos com dados reais seus.

Datasets de avaliação

Conceito

Dataset = um conjunto de exemplos (perguntas/entradas) que representam seu caso de uso.
Eval (avaliação) = rodar esses exemplos em 1 a 5 modelos e comparar as saídas.
LLM-as-judge = um modelo julgador dá uma nota de 0 a 100 + justificativa pra cada saída, automatizando a comparação.

Passo a passo

Datasets → Novo e importe seus exemplos (CSV, JSON ou manual).
Abra o dataset → Rodar avaliação.
Escolha o prompt (da biblioteca ou inline) + os modelos a comparar + a API key.
(Opcional) escolha o modelo julgador pra nota automática.
Veja os resultados lado a lado: saída de cada modelo, nota e justificativa.

💡 Use isso junto com Recomendações: a recomendação sugere um modelo mais barato, e o dataset confirma se a qualidade se mantém antes de você migrar em produção.