Unsupervised Learning: Definition & Erklärung — Glossar
Was ist Unsupervised Learning?
Unsupervised Learning (dt. unüberwachtes Lernen) ist ein Paradigma des maschinellen Lernens, bei dem Modelle aus Daten ohne vordefinierte Labels oder Zielantworten lernen. Das Modell entdeckt selbstständig Strukturen, Muster und Zusammenhänge in den Daten — ohne dass ein Mensch vorgibt, was “richtig” oder “falsch” ist.
Hauptaufgaben
Clustering: Daten werden in natürliche Gruppen (Cluster) ähnlicher Datenpunkte eingeteilt. K-Means teilt Daten in k Cluster durch Minimierung der intra-Cluster-Distanzen. DBSCAN erkennt Cluster beliebiger Form und identifiziert Ausreißer. Hierarchisches Clustering erstellt Dendrogramme ohne vorgegebene Cluster-Anzahl. Dimensionsreduktion: PCA (Principal Component Analysis) und t-SNE reduzieren hochdimensionale Daten für Visualisierung und Feature Engineering. Anomalieerkennung: Isolation Forest, Autoencoder erkennen ungewöhnliche Datenpunkte ohne labeled Beispiele.
Anwendungsbeispiele
Kundensegmentierung: Kunden werden auf Basis von Kaufverhalten automatisch in Segmente gruppiert — ohne vorab definierte Segmentdefinition. Anomalieerkennung in Fertigungslinien: Sensordaten werden ohne gelabelte Fehlerfälle auf Abweichungen von der Norm geprüft. Themenmodellierung (Topic Modeling): LDA erkennt automatisch Themencluster in großen Dokumentensammlungen. Empfehlungssysteme: Collaborative Filtering gruppiert ähnliche Nutzer ohne explizite Vorgabe.
Abgrenzung und Kombinationen
Unsupervised Learning erfordert keine kostspielige Datenlabeling-Phase, liefert aber weniger präzise, weniger direkt steuerbare Ergebnisse als Supervised Learning. Semi-supervised Learning kombiniert wenige gelabelte mit vielen ungelabelten Daten. Self-supervised Learning (Grundlage moderner LLMs) ist eine spezielle Form, bei der Modelle aus den Daten selbst Labels generieren (z. B. Vorhersage des nächsten Wortes).