Zum Inhalt springen
Start/Experten-Center/Glossar/Vektordatenbank: Definition & Erklärung — Glossar

Vektordatenbank: Definition & Erklärung — Glossar

Eine Vektordatenbank ist eine spezialisierte Datenbank, die Daten nicht als Tabellen oder Dokumente speichert, sondern als hochdimensionale mathematische Vektoren – sogenannte Embeddings. Diese Vektoren kodieren die semantische Bedeutung von Texten, Bildern oder anderen Inhalten in numerischer Form. Der entscheidende Vorteil: Vektordatenbanken können nicht nach exakten Begriffen suchen, sondern nach inhaltlicher Ähnlichkeit. Sie sind heute die technische Grundlage für KI-Wissenssysteme, semantische Suche und RAG-Architekturen.

Wie funktionieren Vektordatenbanken?

Ein Embedding-Modell wandelt Texte, Bilder oder andere Inhalte in Vektoren um – zahlreiche Zahlenwerte, die den semantischen Inhalt des Dokuments repräsentieren. Ähnliche Inhalte erzeugen ähnliche Vektoren, die im hochdimensionalen Raum nah beieinander liegen. Wenn eine Suchanfrage ebenfalls in einen Vektor umgewandelt wird, findet die Vektordatenbank per Approximate Nearest Neighbor (ANN) die Dokumente, deren Vektoren dem Anfrage-Vektor am ähnlichsten sind – auch wenn keine exakten Wörter übereinstimmen.

Unterschied zur klassischen Datenbanksuche

Eine klassische Datenbanksuche findet exakte Treffer: „Lieferschein” findet nur Dokumente, die genau dieses Wort enthalten. Eine Vektordatenbank findet semantisch verwandte Inhalte: Eine Suche nach „Frachtpapier” findet auch Dokumente über Lieferscheine, Versanddokumente und Frachtbriefe – weil ihre Bedeutung ähnlich ist, auch wenn das Wort fehlt.

Einsatzfelder in Unternehmen

  • RAG-Systeme: Unternehmensdokumente werden vektorisiert und in einer Vektordatenbank gespeichert. KI-Assistenten suchen darin bei jeder Nutzeranfrage nach relevanten Passagen.
  • Semantische Suche: Mitarbeiter finden relevante Dokumente auch bei unpräzisen Suchanfragen.
  • Produktempfehlungen: Ähnliche Produkte finden auf Basis inhaltlicher Eigenschaften, nicht nur Kategorien.
  • Duplikaterkennung: Ähnliche Dokumente, Anfragen oder Kundenprofile automatisch identifizieren.

Verbreitete Vektordatenbanken

Pinecone, Weaviate, Qdrant, Milvus und pgvector (PostgreSQL-Erweiterung) sind verbreitete Lösungen. Für viele mittelständische Anwendungsfälle reicht pgvector als kostengünstige Erweiterung der bestehenden PostgreSQL-Infrastruktur.

Fazit

Vektordatenbanken sind die stille Grundlage hinter modernen KI-Anwendungen. Wer RAG-Systeme, semantische Suche oder KI-Assistenten auf Basis eigener Unternehmensdaten aufbauen will, kommt an Vektordatenbanken nicht vorbei.

Zurück zum Experten-Center