Glossar19. Juni 20263 Min. Lesezeit

Validierung (ML): Definition & Erklärung — Glossar

Was ist ML-Validierung?

Validierung im Machine Learning bezeichnet den Prozess, die Leistung eines trainierten Modells auf Daten zu messen, die nicht für das Training verwendet wurden. Ziel ist es, die tatsächliche Generalisierungsfähigkeit des Modells auf neue, ungesehene Daten zu schätzen — und Overfitting (Überanpassung an Trainingsdaten) zu erkennen.

Train-Validation-Test-Split

Ein Datensatz wird typischerweise in drei Teile aufgeteilt: Trainingsdaten (60–80 %): Zum Training des Modells. Validierungsdaten (10–20 %): Zur Hyperparameter-Optimierung und Modellauswahl während der Entwicklung. Testdaten (10–20 %): Für die finale, unvoreingenommene Leistungsbewertung nach Abschluss aller Entwicklungsschritte. Der Testdatensatz darf erst am Ende genutzt werden — jede Optimierung auf Basis von Testdaten verzerrt die Leistungsschätzung.

Cross-Validation

Bei kleinen Datensätzen ist ein fixer Train-Test-Split ineffizient. K-Fold-Cross-Validation teilt Daten in k Teile (Folds), trainiert k Mal mit verschiedenen Train-Validierungs-Aufteilungen und mittelt die Ergebnisse. Stratified K-Fold erhält die Klassenverteilung in jedem Fold. Time-Series-Cross-Validation respektiert die Zeitlichkeit: Zukünftige Daten werden nie zum Training vergangener Validierungsperioden genutzt (kein Data Leakage).

Validierungsmetriken

Die richtige Metrik hängt vom Aufgabentyp ab: Klassifikation: Accuracy, Precision, Recall, F1-Score, AUC-ROC. Regression: Mean Absolute Error (MAE), Mean Squared Error (MSE), R². Ranking: NDCG (Normalized Discounted Cumulative Gain). Für unbalancierte Klassen (z. B. Betrugserkennung: 99 % normal, 1 % Betrug) ist Accuracy irreführend — F1-Score oder AUC-ROC sind besser geeignet.

Zurück zum Experten-Center