Glossar19. Juni 20263 Min. Lesezeit

Embeddings: Definition & Erklärung — Glossar

Was sind Embeddings?

Embeddings sind dichte numerische Vektoren (Arrays von Dezimalzahlen), die Wörter, Sätze, Dokumente, Bilder oder andere Datenobjekte in einem hochdimensionalen Vektorraum repräsentieren. Das Besondere: Semantisch ähnliche Inhalte liegen in diesem Raum geometrisch nah beieinander. “Hund” und “Katze” haben ähnlichere Vektoren als “Hund” und “Auto”.

Wie entstehen Embeddings?

Embedding-Modelle werden auf großen Textkorpora trainiert und lernen dabei, semantische Bedeutung in Zahlenform zu komprimieren. Bekannte Modelle sind OpenAI’s text-embedding-ada-002, Sentence-BERT oder multilingual-e5. Diese Modelle transformieren beliebigen Text in Vektoren mit typischerweise 384 bis 1536 Dimensionen. Der Ähnlichkeitsvergleich erfolgt über Cosinus-Ähnlichkeit oder euklidische Distanz.

Embeddings in RAG-Systemen

Embeddings sind das Herzstück von Retrieval Augmented Generation (RAG). Unternehmensdokumente werden in Chunks zerlegt, als Embeddings kodiert und in einer Vektordatenbank gespeichert. Bei einer Suchanfrage wird die Anfrage ebenfalls zu einem Embedding und die ähnlichsten Dokument-Chunks werden gefunden und dem Sprachmodell als Kontext übergeben. So kann ein LLM gezielt auf internem Firmenwissen basierte Antworten generieren.

Weitere Anwendungen

Embeddings finden Einsatz in Produktempfehlungen (ähnliche Produkte), semantischer Suche (Bedeutung statt Stichwörter), Duplikatserkennung, Sentimentanalyse und Anomalieerkennung. Sie sind eine Schlüsseltechnologie moderner KI-Anwendungen und übertreffen klassische Keyword-basierte Methoden in vielen Szenarien deutlich.

Zurück zum Experten-Center