Zum Inhalt springen
Start/Experten-Center/Glossar/Tokenisierung (NLP): Definition & Erklärung — Glossar

Tokenisierung (NLP): Definition & Erklärung — Glossar

Was ist Tokenisierung?

Tokenisierung (engl. Tokenization) bezeichnet den Prozess, bei dem Text in kleinste bedeutungstragende Einheiten — sogenannte Tokens — zerlegt wird. Diese Tokens dienen als Eingabe für Natural Language Processing (NLP)-Algorithmen und Large Language Models (LLMs). Ein Token kann ein Wort, ein Wortbestandteil, ein Zeichen oder ein Sonderzeichen sein.

Tokenisierungsverfahren

Wort-Tokenisierung: Text wird an Leerzeichen und Satzzeichen in einzelne Wörter getrennt — einfach, aber problematisch bei Komposita (deutsch!), Sonderzeichen und unbekannten Wörtern. Subword-Tokenisierung: Moderne LLMs verwenden Algorithmen wie Byte-Pair-Encoding (BPE) oder WordPiece, die häufige Wörter als einzelne Tokens und seltene als Teilwörter kodieren. “Tokenisierung” könnte z. B. zu [“Token”, “isier”, “ung”] werden. Zeichen-Tokenisierung verarbeitet jeden Buchstaben einzeln.

Tokens und Kontextfenster

LLMs verarbeiten Text ausschließlich als Token-Sequenzen. Ihre Verarbeitungskapazität wird in Token gemessen (Kontextfenster). Kosten für API-Anfragen an LLMs (OpenAI, Anthropic) werden pro Token berechnet. Als Faustregel: 1 Token ≈ 0,75 Wörter im Englischen; Deutsch benötigt aufgrund der Komposita tendenziell mehr Tokens pro Wort. Das Verständnis von Tokenisierung ist daher relevant für Kostenoptimierung und Performance-Planung.

Tokenisierung in der Datenverarbeitung

Tokenisierung hat auch eine andere Bedeutung im Datenschutzkontext: Dabei werden sensible Daten (z. B. Kreditkartennummern) durch nicht-sensitive Ersatzwerte (Tokens) ersetzt. Das Original wird sicher gespeichert, der Token ist nutzlos ohne Zugang zum Tokenisierungssystem. Diese Form der Tokenisierung wird in PCI-DSS-konformen Zahlungssystemen eingesetzt, um Kreditkartendaten zu schützen.

Zurück zum Experten-Center