Inferenz (KI): Definition & Erklärung — Glossar
Was ist Inferenz in der KI?
Inferenz (engl. Inference) bezeichnet in der künstlichen Intelligenz den Prozess, bei dem ein bereits trainiertes Modell auf neue, bislang ungesehene Eingabedaten angewendet wird, um Vorhersagen, Klassifizierungen oder Texte zu generieren. Inferenz ist die Nutzungsphase des KI-Lebenszyklus — der Moment, in dem das Modell in der Praxis eingesetzt wird.
Abgrenzung zum Training
Während des Trainings lernt ein Modell aus großen Datensätzen und passt seine Gewichte iterativ an. Dieser Prozess ist rechenintensiv und dauert Stunden bis Wochen. Inferenz hingegen wendet das fertige Modell auf einzelne oder kleine Gruppen von Eingaben an — typischerweise in Millisekunden bis Sekunden. Training erfolgt einmalig oder periodisch; Inferenz läuft kontinuierlich im Produktionsbetrieb.
Inferenz-Optimierung
Da Inferenz in Produktionssystemen oft tausende Male pro Stunde stattfindet, ist ihre Effizienz geschäftskritisch. Quantisierung reduziert die Präzision von Modellgewichten (z. B. von 32-bit auf 8-bit Float), was Speicherbedarf und Rechenzeit senkt. Pruning entfernt unwichtige Verbindungen aus neuronalen Netzen. Modell-Destillation trainiert kleinere “Schüler”-Modelle, die das Verhalten größerer “Lehrer”-Modelle imitieren. Spezielle Inferenz-Hardware (GPUs, TPUs, NPUs) beschleunigt die Verarbeitung erheblich.
Inferenz-Infrastruktur
Cloud-Anbieter bieten spezialisierte Inferenz-Dienste: AWS SageMaker Inference, Azure Machine Learning Endpoints, Google Vertex AI Prediction. Für On-Premises-Betrieb oder geringe Latenzen eignen sich Frameworks wie NVIDIA Triton Inference Server, ONNX Runtime oder llama.cpp für LLMs. Die Wahl der Infrastruktur beeinflusst maßgeblich Kosten und Antwortzeiten einer KI-Anwendung.