Reinforcement Learning: Definition & Erklärung — Glossar
Was ist Reinforcement Learning?
Reinforcement Learning (RL, dt. Bestärkendes Lernen) ist ein Paradigma des maschinellen Lernens, bei dem ein Agent durch Interaktion mit einer Umgebung lernt, optimale Entscheidungen zu treffen. Der Agent führt Aktionen durch, erhält Belohnungen (positive Rückmeldung) oder Strafen (negative Rückmeldung) und lernt schrittweise, die kumulative Belohnung zu maximieren — ohne explizite Trainingsdaten.
Kernkonzepte
Agent: Die lernende Einheit, die Entscheidungen trifft. Umgebung: Der Kontext, mit dem der Agent interagiert. Zustand (State): Die aktuelle Situation des Agenten in der Umgebung. Aktion: Was der Agent tun kann. Belohnung (Reward): Feedback des Systems auf die Aktion des Agenten. Policy: Die Strategie des Agenten, die Aktionen auf Zustände abbildet. Value Function: Schätzung des erwarteten zukünftigen Belohnungswerts eines Zustands.
Bekannte Algorithmen und Erfolge
Q-Learning und Deep Q-Networks (DQN) lösen Atari-Spiele auf Menschenniveau. AlphaGo/AlphaZero nutzte RL, um das Go-Spiel zu meistern. Proximal Policy Optimization (PPO) ist ein weit verbreiteter RL-Algorithmus für kontinuierliche Aktionsräume. RLHF (Reinforcement Learning from Human Feedback) trainiert LLMs wie ChatGPT auf menschliche Präferenzen.
Unternehmensanwendungen
Robotersteuerung und autonome Systeme (Roboter in Lagerhäusern, autonome Fahrzeuge). Optimierung von Lieferketten und Ressourcenplanung. Dynamisches Preissetting (z. B. Airlines, Energie). Personalisierung von Empfehlungen. Steuerung von Rechenzentrumskühlsystemen (Google: 40 % Energieeinsparung durch RL). RL ist leistungsfähig, aber komplex zu implementieren und zu debuggen — direkter Unternehmenseinsatz setzt oft spezialisiertes Know-how voraus.