13Manual 13 de 19·3 minutos

Datasets e avaliação de modelos

Monte um conjunto de exemplos e compare modelos lado a lado (com nota automática via LLM-as-judge) antes de decidir qual usar.

Datasets (/dashboard/datasets) serve pra medir qualidade antes de trocar de modelo — em vez de chutar, você compara modelos com dados reais seus.

Datasets de avaliação

Conceito

  • Dataset = um conjunto de exemplos (perguntas/entradas) que representam seu caso de uso.
  • Eval (avaliação) = rodar esses exemplos em 1 a 5 modelos e comparar as saídas.
  • LLM-as-judge = um modelo julgador dá uma nota de 0 a 100 + justificativa pra cada saída, automatizando a comparação.

Passo a passo

  1. Datasets → Novo e importe seus exemplos (CSV, JSON ou manual).
  2. Abra o dataset → Rodar avaliação.
  3. Escolha o prompt (da biblioteca ou inline) + os modelos a comparar + a API key.
  4. (Opcional) escolha o modelo julgador pra nota automática.
  5. Veja os resultados lado a lado: saída de cada modelo, nota e justificativa.

💡 Use isso junto com Recomendações: a recomendação sugere um modelo mais barato, e o dataset confirma se a qualidade se mantém antes de você migrar em produção.