Feature Engineering: Definition & Erklärung — Glossar
Was ist Feature Engineering?
Feature Engineering (dt. Merkmalserstellung) ist der Prozess, bei dem Domänenwissen und statistische Methoden genutzt werden, um aus Rohdaten aussagekräftige Eingabevariablen (Features) für Machine-Learning-Modelle zu erstellen. Es gilt als einer der wichtigsten Schritte im ML-Pipeline und hat oft mehr Einfluss auf die Modellqualität als die Wahl des Algorithmus.
Typische Feature-Engineering-Techniken
Häufige Methoden sind: Normalisierung und Standardisierung (numerische Werte auf vergleichbare Skalen bringen), One-Hot-Encoding (kategorische Variablen in binäre Spalten umwandeln), Binning (kontinuierliche Werte in Gruppen einteilen), Interaktionsfeatures (Kombinationen bestehender Features), Zeitreihen-Features (Wochentag, Trend, Saison aus Datumsspalten extrahieren) und Textfeatures (TF-IDF, n-Gramme aus Textdaten).
Bedeutung im ML-Workflow
Garbage in, garbage out – schlechte Features produzieren schlechte Modelle, unabhängig vom verwendeten Algorithmus. Domänenwissen ist beim Feature Engineering entscheidend: Ein Logistikexperte weiß, welche Lieferdaten relevant für Verspätungsvorhersagen sind. Automatisierte Feature-Engineering-Tools (AutoML) können Kandidaten generieren, ersetzen aber nicht das Verständnis des Fachbereichs.
Feature Selection
Feature Selection ergänzt Feature Engineering: Aus der Menge möglicher Features werden die relevantesten ausgewählt. Methoden wie Korrelationsanalyse, LASSO-Regularisierung oder Importance-Scores aus Random Forests helfen dabei. Zu viele irrelevante Features verlangsamen das Training, erhöhen Overfitting-Risiko und reduzieren die Interpretierbarkeit des Modells.