Score your AI outputs.

A single API call to evaluate accuracy, relevance, safety, and more.
Ship AI with confidence.

terminal

$ curl -X POST https://evalkit.dev/api/v1/eval \
  -H "Authorization: Bearer ek_live_abc123" \
  -d '{"output": "Paris is the capital of France",
       "criteria": ["accuracy", "relevance"]}'

{
  "overall_score": 0.95,
  "criteria": {
    "accuracy": { "score": 0.98, "reasoning": "Factually correct" },
    "relevance": { "score": 0.92, "reasoning": "Directly answers the question" }
  }
}

Integrate in minutes

curl -X POST https://evalkit.dev/api/v1/eval \
  -H "Authorization: Bearer ek_live_abc123" \
  -H "Content-Type: application/json" \
  -d '{
    "output": "Your LLM output here",
    "criteria": ["accuracy", "relevance", "safety"]
  }'