13Manual 13 de 19·⏱ 3 minutos
Datasets e avaliação de modelos
Monte um conjunto de exemplos e compare modelos lado a lado (com nota automática via LLM-as-judge) antes de decidir qual usar.
Datasets (/dashboard/datasets) serve pra medir qualidade antes de trocar de modelo — em vez de chutar, você compara modelos com dados reais seus.

Conceito
- Dataset = um conjunto de exemplos (perguntas/entradas) que representam seu caso de uso.
- Eval (avaliação) = rodar esses exemplos em 1 a 5 modelos e comparar as saídas.
- LLM-as-judge = um modelo julgador dá uma nota de 0 a 100 + justificativa pra cada saída, automatizando a comparação.
Passo a passo
- Datasets → Novo e importe seus exemplos (CSV, JSON ou manual).
- Abra o dataset → Rodar avaliação.
- Escolha o prompt (da biblioteca ou inline) + os modelos a comparar + a API key.
- (Opcional) escolha o modelo julgador pra nota automática.
- Veja os resultados lado a lado: saída de cada modelo, nota e justificativa.
💡 Use isso junto com Recomendações: a recomendação sugere um modelo mais barato, e o dataset confirma se a qualidade se mantém antes de você migrar em produção.