Glossar19. Juni 20263 Min. Lesezeit

Multimodale KI: Definition & Erklärung — Glossar

Was ist multimodale KI?

Multimodale KI bezeichnet KI-Systeme, die mehr als eine Modalität (Datentyp) verarbeiten und kombinieren können. Statt auf einen Typ (z. B. nur Text oder nur Bilder) beschränkt zu sein, verarbeiten multimodale Modelle gleichzeitig Text, Bilder, Audio, Video, Tabellen oder Code — und verstehen deren gemeinsamen Kontext.

Beispiele multimodaler Modelle

GPT-4V (Vision) und Claude erweitern klassische Textmodelle um Bildverständnis. DALL-E, Stable Diffusion und Midjourney generieren Bilder aus Textbeschreibungen. Whisper (OpenAI) transkribiert gesprochene Sprache in Text. Gemini (Google) wurde von Grund auf multimodal entwickelt und verarbeitet nativ Text, Bild, Audio und Video. Flamingo kombiniert visuelle und sprachliche Verarbeitung für Frage-Antwort-Aufgaben zu Bildern.

Unternehmensanwendungen

Multimodale KI eröffnet neue Anwendungsfelder: Automatische Analyse von Produktfotos für Qualitätskontrolle mit gleichzeitiger Texterstellung für Fehlerberichte. Verarbeitung von gescannten Dokumenten, die Bilder und Text kombinieren. KI-Assistenten, die Screenshots oder Diagramme verstehen und darüber kommunizieren. Automatische Untertitelung und Inhaltsbeschreibung für Barrierefreiheit. Analyse von Video-Feeds in der Produktion kombiniert mit Sensor-Daten.

Herausforderungen

Multimodale Modelle sind rechenintensiver und teurer als unimodale. Die Ausrichtung (Alignment) verschiedener Modalitäten ist technisch komplex. Datenschutz-Aspekte sind bei Bild- und Audioverarbeitung sensibler als bei reiner Textverarbeitung. Die Evaluation multimodaler Systeme erfordert modalitätsspezifische Benchmarks. Trotzdem gilt multimodale KI als wichtige Entwicklungsrichtung hin zu allgemeineren KI-Systemen.

Zurück zum Experten-Center