Supervised Learning: Definition & Erklärung — Glossar
Was ist Supervised Learning?
Supervised Learning (dt. überwachtes Lernen) ist das am weitesten verbreitete Paradigma des maschinellen Lernens. Ein Modell wird auf einem Datensatz trainiert, bei dem jedes Trainingsbeispiel mit einem korrekten Label (Zielantwort) versehen ist. Das Modell lernt, aus den Eingabemerkmalen (Features) das korrekte Label vorherzusagen und generalisiert dieses Wissen auf neue, ungesehene Daten.
Aufgabentypen
Klassifikation: Das Modell ordnet Eingaben diskreten Kategorien zu. Beispiele: E-Mail ist Spam oder kein Spam, Bild zeigt Hund, Katze oder Vogel, Kreditantrag wird genehmigt oder abgelehnt. Regression: Das Modell sagt kontinuierliche Werte vorher. Beispiele: Hauspreisvorhersage, Nachfrageprognose, Energieverbrauchsschätzung. Multi-Label-Klassifikation: Eine Eingabe kann mehrere Labels gleichzeitig haben.
Algorithmen
Lineare und logistische Regression sind die einfachsten Vertreter — interpretierbar und schnell. Decision Trees und Random Forests sind mächtigere, nicht-lineare Methoden. Gradient Boosting (XGBoost, LightGBM) ist oft der beste Ansatz für strukturierte Tabellendaten. Neural Networks und Deep Learning bieten maximale Ausdrucksstärke für komplexe Aufgaben (Bild-, Text-, Sprachverarbeitung).
Trainingsdaten als Engpass
Supervised Learning erfordert annotierte Trainingsdaten — der oft teuerste und zeitintensivste Teil eines ML-Projekts. Die Qualität und Repräsentativität der Labels bestimmt maßgeblich die Modellgüte. Data Augmentation erweitert Trainingsdaten künstlich. Transfer Learning nutzt vortrainierte Modelle, um mit weniger gelabelten Daten auszukommen. Active Learning priorisiert die wichtigsten Datenpunkte für manuelle Annotation.