Glossar · Stand 29. April 2026
Eval (Evaluation)
Systematisches Testen von KI-Outputs gegen Erwartungswerte oder Qualitätskriterien.
Evals sind wie Unit-Tests, aber für LLM-Outputs. Du definierst eine Test-Sammlung (z.B. 50 Beispiel-Prompts mit erwartetem Verhalten) und prüfst regelmäßig, ob das Modell oder dein Prompt-Setup besser oder schlechter wird. Ohne Evals ist KI-Production Blindflug.