Tokenization & Entity Recognition – Vom Wort zur Bedeutung

Zusammenfassung

Verfasst von Marcus A. Volz. Bevor Maschinen Sprache verstehen können, müssen sie sie zerlegen. Tokenization teilt Texte in analysierbare Einheiten, Named Entity Recognition identifiziert darin konkrete Bedeutungsträger wie Personen, Orte oder Marken. Zusammen bilden sie die Grundlage jeder semantischen Interpretation – und damit den Übergang von Wörtern zu Bedeutung. Dieser Artikel erklärt beide Prozesse im Detail, zeigt ihre technologische Entwicklung und verdeutlicht ihre zentrale Rolle für semantische SEO.

Tokenization & Entity Recognition

Vom Wort zur Bedeutung

1. Einleitung: Vom Satz zur Bedeutungseinheit

Bevor Maschinen Sprache verstehen können, müssen sie sie zerlegen. Jeder Text, jede Suchanfrage, jede Überschrift ist für eine Maschine zunächst eine ungeordnete Abfolge von Zeichen. Um daraus Bedeutung zu gewinnen, muss diese Zeichenkette in Einheiten übersetzt werden, die analysierbar sind.

Dieser Prozess erfolgt in zwei Schritten: Tokenization und Entity Recognition.

Tokenization teilt Texte in kleinere Segmente – sogenannte Tokens. Entity Recognition identifiziert in diesen Segmenten Namen, Orte, Marken, Organisationen oder andere klar definierbare Konzepte – sogenannte Entitäten.

Zusammen bilden sie den Übergang von Sprache zu Bedeutung.

„Bevor eine Maschine versteht, was gesagt wird, muss sie wissen, wovon gesprochen wird."

2. Was ist Tokenization?

Tokenization ist die erste Phase der Sprachverarbeitung. Sie beantwortet die grundlegende Frage: Wo beginnt und endet ein Wort?

Für den Menschen ist das trivial – für eine Maschine nicht. Computer sehen Text als durchgehende Abfolge von Zeichen:

Spracheistkomplexundmehrdeutig.

Erst die Tokenisierung macht daraus:

[Sprache] [ist] [komplex] [und] [mehrdeutig]

Diese Unterteilung erlaubt es NLP-Systemen, Wörter zu zählen, Satzstrukturen zu analysieren, Wortarten zu bestimmen und Bedeutungen zu modellieren. Jedes Token ist dabei eine kleinste bedeutungstragende Einheit, auf die weitere Berechnungen angewendet werden können.

Beispiel:

„Lernen mit KI ist spannend." →
[Lernen] [mit] [KI] [ist] [spannend]

Damit entsteht Struktur. Tokenization ist somit kein nebensächlicher Schritt, sondern der Moment, in dem Sprache zum verarbeitbaren Objekt wird.

3. Methoden der Tokenisierung

Im Laufe der Entwicklung des Natural Language Processing sind verschiedene Formen der Tokenisierung entstanden – von einfachen Regeln bis zu hochdynamischen Verfahren in neuronalen Modellen.

Whitespace-Tokenization

Die einfachste Methode: Text wird bei Leerzeichen getrennt. Schnell, aber ungenau – Satzzeichen oder zusammengesetzte Wörter führen zu Fehlern.

Problem: „New York" wird zu [New] [York], obwohl es eine Einheit ist.

Rule-based Tokenization

Hier werden linguistische Regeln einbezogen: Trennung an Satzzeichen, Abkürzungen, Datumsformaten etc.

Beispiel:
„Dr. Müller geht nach Berlin." →
[Dr.] [Müller] [geht] [nach] [Berlin]

Subword-Tokenization (BPE, WordPiece)

Moderne Modelle wie BERT oder Gemini nutzen Subword-Tokenisierung, um unbekannte Wörter zu zerlegen. Das Modell lernt dabei häufige Silbenkombinationen und kann so auch neue Begriffe verarbeiten, indem es sie in bekannte Teilstücke zerlegt.

Funktionsweise: Das Modell identifiziert die häufigsten Zeichenkombinationen im Trainingsmaterial und baut daraus ein Vokabular. Neue Wörter werden dann in diese gelernten Segmente zerlegt.

Beispiel:
„Digitalisierung" → [Digital] [isierung]

So können Modelle auch mit neuen Begriffen umgehen, ohne sie zu verwerfen. Das ist besonders wichtig für schnelllebige Domänen wie Technologie oder Social Media, wo ständig neue Begriffe entstehen.

Character-Level Tokenization

In Sprachen ohne klare Wortgrenzen (z. B. Chinesisch oder Japanisch) wird der Text in einzelne Zeichen zerlegt. Das erhöht die Genauigkeit, erfordert aber deutlich mehr Rechenleistung.

4. Warum Tokenization mehr ist als Zählen

Früher diente Tokenization vor allem statistischen Zwecken: Wie oft kommt ein Wort vor? Wie häufig folgen bestimmte Kombinationen aufeinander?

Heute geht es um mehr: Tokenization schafft Kontext.

Sie legt fest, was ein Modell überhaupt als Einheit begreift. Wenn „Granada" als ein Token behandelt wird, versteht die Maschine, dass es sich um einen geografischen Ort handeln könnte. Würde „Gra" und „nada" getrennt erkannt, ginge diese Information verloren.

In modernen Sprachmodellen sind Tokens also Träger semantischer Energie. Sie sind die Schnittstelle zwischen Text und Bedeutung.

5. Vom Token zur Entität

Nachdem Texte in Tokens zerlegt sind, stellt sich die nächste Frage: Welche dieser Tokens sind wichtig – und was bezeichnen sie?

Hier beginnt der Prozess der Named Entity Recognition (NER).

NER identifiziert spezifische Namen und Konzepte, die im Text vorkommen – also Entitäten im semantischen Sinn:

Entitätstyp Beispiele
Personen Marcus Volz, Angela Merkel
Orte Granada, Andalusien, Spanien
Organisationen Google, UNESCO, eLengua
Zeitangaben 2025, 19. Jahrhundert, Montag
Produkte iPhone 15, BERT-Modell, WordPress

Während Tokenization Struktur schafft, schafft Entity Recognition Bedeutung.

6. Wie Named Entity Recognition funktioniert

Die Erkennung von Entitäten ist eines der zentralen Probleme im NLP, weil Sprache ungenau und kontextabhängig ist.

Ein einfaches Beispiel:

„Apple" kann ein Unternehmen oder eine Frucht sein. Erst der Kontext entscheidet.

Maschinen lernen, diesen Kontext zu bewerten – durch Feature-Extraktion, Kontextanalyse und Wahrscheinlichkeitsberechnung.

Frühe Ansätze: Feature-basiert

Systeme nutzten Listen, Muster und manuell erstellte Regeln. Wenn ein Wort mit Großbuchstaben beginnt und oft in Kombination mit Städten vorkommt, wird es als potenzieller Name markiert.

Übergang zu neuronalen Modellen

Später kamen statistische Verfahren wie CRF (Conditional Random Fields) und SVMs (Support Vector Machines). Sie kombinierten verschiedene Merkmale (Position, Großschreibung, Wortart), um Entitäten vorherzusagen.

Heute: Transformer-Modelle

Aktuelle Systeme basieren auf neuronalen Netzen wie BERT, MUM oder Gemini. Diese Modelle analysieren nicht mehr einzelne Merkmale, sondern den gesamten Kontext eines Satzes.

Kontextbasierte Erkennung:

„Ich esse einen Apfel" → Frucht
„Apple stellt neue Geräte vor" → Unternehmen

Das Modell erkennt, dass „Apfel" hier im Zusammenhang mit „essen" vorkommt, und „Apple" dort mit „Geräte".

Das ist maschinelles Kontextverständnis – keine Regel, sondern Bedeutung durch Wahrscheinlichkeit.

7. Entity Linking & Disambiguation

Das bloße Erkennen von Entitäten reicht nicht aus. Maschinen müssen auch wissen, welche konkrete Entität gemeint ist.

Dazu dient das Entity Linking – die Zuordnung erkannter Begriffe zu bekannten Einträgen in Wissensdatenbanken.

Beispiel: „Paris"

  • Stadt in Frankreich (Wikipedia-ID: Q90)
  • Person (Paris Hilton)
  • Figur aus der griechischen Mythologie

Das System entscheidet anhand des Kontexts, welche Entität zutrifft, und verknüpft sie mit einer eindeutigen Kennung. Dieser Prozess heißt Disambiguation – die Auflösung von Mehrdeutigkeit.

Google nutzt dafür Datenquellen wie Wikidata, Wikipedia, Freebase und den eigenen Knowledge Graph. So wird aus Text ein Teil des globalen Wissensnetzes.

Praxistipp für SEO: Nutze strukturierte Daten (Schema.org) und verlinke auf etablierte Wissensquellen wie Wikipedia, um Google bei der Entity-Zuordnung zu unterstützen. Je eindeutiger deine Entitäten referenziert sind, desto besser kann Google sie im Knowledge Graph positionieren.

8. Bedeutung für semantische SEO

Hier beginnt der Brückenschlag zur Suchmaschinenoptimierung. Tokenization und Entity Recognition sind die Grundlage jeder semantischen Bewertung von Content.

Wenn Google eine Seite analysiert, findet es nicht nur Wörter, sondern Entitäten und ihre Beziehungen.

Konkretes Beispiel: Andalusien-Reisen

Ein Artikel über „Andalusien Reisen" enthält Begriffe wie „Granada", „Sevilla", „Tapas", „Kultur" und „Spanien".

Was Google daraus macht:

  1. Erkennt diese Tokens als Entitäten
  2. Ordnet sie zu einem gemeinsamen Themenfeld „Südspanien"
  3. Verknüpft sie im semantischen Graph mit verwandten Entitäten wie „Flamenco", „Alhambra", „Mittelmeer"
  4. Erstellt ein semantisches Profil der Seite basierend auf diesem Entitätsnetzwerk

Dadurch kann eine Website für Suchanfragen ranken, die den genauen Wortlaut gar nicht enthalten – weil sie im Bedeutungsraum präsent ist.

Das ist der Kern semantischer SEO: Relevanz entsteht durch Zusammenhänge, nicht durch Wortwiederholungen.

Handlungsempfehlung für Content-Creator:

  • Verwende zentrale Entitäten konsistent und kontextreich
  • Verknüpfe sie mit semantisch verwandten Begriffen
  • Nutze Schema.org Markup zur expliziten Entity-Kennzeichnung
  • Verlinke auf authoritative Quellen (Wikipedia, offizielle Websites)
  • Baue thematische Cluster statt isolierter Einzelseiten

9. Technologische Entwicklungen

Mit der Einführung von Transformer-Modellen (wie BERT, MUM oder Gemini) hat sich die Entity Recognition stark verändert. Diese Modelle erfassen Bedeutungen nicht linear, sondern über mehrdimensionale Kontextvektoren.

Das bedeutet: Ein Wort wird nicht mehr allein durch seine Position im Satz bestimmt, sondern durch die Beziehungen zu allen anderen Wörtern.

BERT (Bidirectional Encoder Representations from Transformers)

BERT analysiert jedes Wort in beide Richtungen – vorwärts und rückwärts. So kann es den vollständigen Kontext verstehen und Bedeutungen präziser disambiguieren.

MUM (Multitask Unified Model) und Gemini

Diese Modelle gehen noch weiter: Sie kombinieren Text, Bild und Sprache – und erkennen Entitäten in multimodalen Umgebungen.

Multimodale Entity Recognition:

Ein Foto von der Alhambra wird automatisch mit den Entitäten „Granada", „Andalusien", „Spanien", „maurische Architektur" und „UNESCO-Welterbe" verknüpft – ohne dass diese Begriffe im Bildtext stehen müssen.

Die Zukunft der Entity Recognition liegt in diesen hybriden, kontextbasierten Systemen, die Wissen aus unterschiedlichen Modalitäten vereinen.

10. Herausforderungen und Grenzen

Trotz aller Fortschritte bleibt Entity Recognition ein schwieriges Feld.

Ambiguität

Mehrdeutige Begriffe sind die häufigste Fehlerquelle. „Bank" kann ein Sitzplatz oder ein Finanzinstitut sein, „Jaguar" ein Tier oder eine Automarke.

Entitätsgrenzen

Wo endet eine Entität? Ist es „Universität Granada" als Ganzes oder „Universität" + „Granada" als separate Entitäten? Die Antwort hängt vom Kontext und der Analysetiefe ab.

Mehrsprachigkeit

Namen verändern sich je nach Sprache. „Munich" (Englisch), „München" (Deutsch), „Múnich" (Spanisch) – das System muss verstehen, dass alle drei dieselbe Stadt bezeichnen.

Metaphern & Ironie

Maschinen erkennen keine Absichten, nur Wahrscheinlichkeiten. „Das war ein Marathon" kann eine tatsächliche Sportveranstaltung oder eine metaphorische Beschreibung einer anstrengenden Aufgabe sein.

Kulturelle Unterschiede

Beispiel: „Mate"

  • In Argentinien: ein traditionelles Getränk
  • In England: ein Freund (umgangssprachlich)
  • In Deutschland: meist ohne spezifische Bedeutung

Für SEO bedeutet das: Je präziser und kontextreicher ein Text formuliert ist, desto leichter erkennt Google seine Entitäten. Das stärkt nicht nur Sichtbarkeit, sondern auch semantische Autorität.

11. Fazit: Vom Wort zur Welt

Tokenization und Entity Recognition sind die unsichtbare Infrastruktur des maschinellen Sprachverständnisses. Sie verwandeln Sprache in Struktur – und Struktur in Bedeutung.

Tokenization sorgt dafür, dass Maschinen Worte erkennen.
Entity Recognition sorgt dafür, dass sie verstehen, worüber gesprochen wird.

Gemeinsam bilden sie die Grundlage für alles, was semantische SEO, generative KI und intelligente Suche heute leisten.

„Was für Menschen selbstverständlich ist – dass Wörter Dinge bezeichnen – muss für Maschinen rekonstruiert werden. Erst dann entsteht Bedeutung im digitalen Raum."

Im nächsten Kapitel geht es darum, wie Modelle wie BERT, MUM und Gemini diesen Prozess auf eine neue Ebene heben – indem sie Kontext, Bedeutung und Intention in einem System vereinen.

Über den Autor

Marcus A. Volz ist Wirtschaftswissenschaftler, Linguist und Berater für semantische SEO. Er analysiert, wie Suchmaschinen Bedeutung verstehen und wie Marken durch semantische Klarheit sichtbar werden. Als Gründer von eLengua verbindet er ökonomisches Denken mit linguistischer Präzision, um Unternehmen im Zeitalter der KI-Suche strategisch zu positionieren. Sein Fokus liegt auf Entity SEO, semantischer Architektur und der Optimierung von Markenidentitäten in generativen Systemen.

Häufig gestellte Fragen (FAQ)

Was ist Tokenization?

Tokenization ist der Prozess, Text in kleinere Einheiten (Tokens) zu zerlegen – meist Wörter oder Wortteile. Aus „Lernen mit KI ist spannend" werden z. B. die Tokens [Lernen], [mit], [KI], [ist], [spannend]. Dies ist der erste Schritt, um Text maschinell verarbeitbar zu machen und die Grundlage für jede weitere Sprachanalyse.

Was ist Named Entity Recognition (NER)?

Named Entity Recognition ist die automatische Identifikation benannter Entitäten in Texten – also Personen, Orte, Organisationen, Zeitangaben oder spezifische Konzepte. NER hilft Suchmaschinen zu verstehen, worum es in einem Text geht und welche konkreten Bedeutungsträger relevant sind.

Welche Methoden der Tokenisierung gibt es?

Es gibt verschiedene Ansätze: Whitespace-Tokenization (Trennung bei Leerzeichen), Rule-based Tokenization (linguistische Regeln), Subword-Tokenization (Zerlegung in Silben, z.B. BPE oder WordPiece in BERT) und Character-Level Tokenization (einzelne Zeichen, z.B. für Chinesisch). Moderne Modelle nutzen meist Subword-Tokenization, um auch unbekannte Wörter verarbeiten zu können.

Was ist Subword-Tokenization und warum ist sie wichtig?

Subword-Tokenization zerlegt Wörter in häufige Silbenkombinationen. Das Modell lernt dabei aus dem Trainingsmaterial, welche Zeichenfolgen häufig zusammen auftreten. So kann es auch neue oder seltene Wörter verarbeiten, indem es sie in bekannte Teilstücke zerlegt. Beispiel: „Digitalisierung" wird zu [Digital] + [isierung]. Das ist besonders wichtig für schnelllebige Domänen wie Technologie oder Social Media.

Was ist Entity Linking?

Entity Linking ist die Zuordnung erkannter Entitäten zu eindeutigen Einträgen in Wissensdatenbanken wie Wikipedia, Wikidata oder dem Google Knowledge Graph. Wenn ein Text „Paris" erwähnt, entscheidet das System anhand des Kontexts, ob die Stadt in Frankreich, Paris Hilton oder die mythologische Figur gemeint ist – und verknüpft den Begriff mit der richtigen Referenz.

Was ist Disambiguation?

Disambiguation ist die Auflösung von Mehrdeutigkeit. Viele Begriffe haben mehrere Bedeutungen (z.B. „Bank" als Sitzgelegenheit oder Finanzinstitut). Disambiguation-Algorithmen analysieren den Kontext und entscheiden, welche Bedeutung in einer bestimmten Situation gemeint ist.

Wie funktioniert Entity Recognition mit Transformer-Modellen?

Transformer-Modelle wie BERT analysieren Wörter bidirektional – sie schauen gleichzeitig vorwärts und rückwärts im Satz. So erfassen sie den vollständigen Kontext und können Entitäten präziser identifizieren. Ein Wort wird nicht durch seine Position bestimmt, sondern durch die Beziehungen zu allen anderen Wörtern im Text. Das ermöglicht kontextbasiertes Verständnis statt starrer Regeln.

Warum ist Tokenization wichtiger als nur Wörter zu zählen?

Tokenization schafft Kontext. Sie legt fest, was ein Modell als Bedeutungseinheit begreift. Wenn „Granada" als ein Token erkannt wird, kann die Maschine es als geografische Entität behandeln. Würde es in „Gra" und „nada" getrennt, ginge diese semantische Information verloren. In modernen Sprachmodellen sind Tokens Träger semantischer Energie – die Schnittstelle zwischen Text und Bedeutung.

Wie nutzt Google Entity Recognition für SEO?

Google analysiert nicht nur Wörter, sondern Entitäten und ihre Beziehungen. Bei einem Artikel über „Andalusien Reisen" erkennt Google Entitäten wie „Granada", „Sevilla", „Tapas" und verknüpft sie im Knowledge Graph. Dadurch kann die Seite auch für Suchanfragen ranken, die diese Wörter nicht wörtlich enthalten – weil sie im semantischen Bedeutungsraum relevant ist. Das ist semantische SEO: Relevanz durch Zusammenhänge, nicht durch Keyword-Wiederholung.

Was sind die größten Herausforderungen bei Entity Recognition?

Die Hauptprobleme sind: Ambiguität (mehrdeutige Begriffe wie „Bank" oder „Jaguar"), Entitätsgrenzen (wo beginnt/endet eine Entität?), Mehrsprachigkeit (Namen ändern sich je nach Sprache), Metaphern (wörtliche vs. übertragene Bedeutung) und kulturelle Unterschiede (gleiche Begriffe mit unterschiedlichen Bedeutungen in verschiedenen Kulturen). Je präziser und kontextreicher Content formuliert ist, desto besser funktioniert die Entity-Erkennung.

Wie kann ich meine Inhalte für Entity Recognition optimieren?

Nutze Schema.org Markup, um Entitäten explizit zu kennzeichnen. Verwende zentrale Entitäten konsistent und verknüpfe sie mit semantisch verwandten Begriffen. Verlinke auf authoritative Quellen wie Wikipedia oder offizielle Websites. Baue thematische Content-Cluster statt isolierter Einzelseiten. Formuliere präzise und kontextreich, damit Google die Bedeutung und Zusammenhänge leichter erkennen kann.

Was sind multimodale Entity Recognition Systeme?

Multimodale Systeme wie MUM und Gemini kombinieren Text, Bild und Sprache. Sie können Entitäten über verschiedene Medien hinweg erkennen und verknüpfen. Ein Foto der Alhambra wird automatisch mit Entitäten wie „Granada", „Andalusien", „maurische Architektur" und „UNESCO-Welterbe" verknüpft – ohne dass diese Begriffe im Bildtext stehen müssen. Das ist die Zukunft der Entity Recognition.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert