Vom Knowledge Graph zum Knowledge Vault – Wie Google lernt

Zusammenfassung

Verfasst von Marcus A. Volz. Der Knowledge Graph ordnet Wissen, der Knowledge Vault lernt es. Diese Evolution markiert den Übergang von statischer Kuratierung zu kontinuierlichem maschinellem Lernen. Während der Graph auf verlässlichen Quellen beruht, extrahiert der Vault täglich neues Wissen aus Texten, bewertet es probabilistisch und erweitert damit Googles Verständnis der Welt in Echtzeit.

Vom Knowledge Graph zum Knowledge Vault – Wie Google lernt

Einleitung – Vom Kuratieren zum Lernen

Der Google Knowledge Graph markierte einen Meilenstein: Er verwandelte das Internet von einem Netz aus Dokumenten in ein Netz aus Bedeutungen.

Doch dieser Graph war ursprünglich statisch. Seine Entitäten und Relationen stützten sich auf kuratierte Datenquellen wie Wikipedia und Wikidata.

Mit wachsendem Weltwissen wurde deutlich, dass eine manuelle Pflege nicht ausreicht. Täglich entstehen neue Ereignisse, Entdeckungen und Begriffe, die noch in keiner Ontologie verzeichnet sind.

Google brauchte ein System, das nicht nur speichert, sondern lernt.

So entstand der Knowledge Vault – eine Erweiterung des Knowledge Graph, die auf maschinellem Lernen beruht.

Während der Graph Wissen strukturiert, sammelt der Vault neues Wissen automatisch aus Texten, Bildern und Datenbanken.

1. Grenzen des klassischen Knowledge Graph

Der Knowledge Graph ist präzise, aber begrenzt.

Seine Architektur beruht auf symbolischen Strukturen: Entitäten, Klassen und Relationen. Diese lassen sich nur dann erweitern, wenn neue Datenquellen hinzukommen oder Redakteure sie pflegen.

Daraus ergeben sich drei Probleme:

Zeitliche Verzögerung – neue Fakten erscheinen erst, wenn sie in verlässlichen Quellen dokumentiert sind.

Abhängigkeit von externen Datenbanken – ohne Wikidata- oder DBpedia-Einträge kann Google keine stabile Entität erzeugen.

Skalierbarkeitsgrenze – Millionen neuer Themen täglich lassen sich nicht manuell prüfen.

Ein semantisches System, das die Welt abbildet, braucht jedoch Aktualität, Geschwindigkeit und Selbstkorrektur.

Genau hier setzt der Knowledge Vault an.

2. Automatisierte Wissensakquisition

Der Übergang vom Knowledge Graph zum Vault begann mit der Idee, Wissen automatisch zu extrahieren.

Statt auf menschliche Redaktion zu warten, sollen Algorithmen selbstständig neue Fakten erkennen und einordnen.

Grundlage ist die Sprachverarbeitung (NLP) – Natural Language Processing –, also die maschinelle Analyse natürlicher Sprache.

Systeme zerlegen Texte in Strukturen, erkennen Subjekte, Prädikate und Objekte und bilden daraus Relationstripel.

Beispiel: Ein Nachrichtensatz wie

„Die Europäische Zentralbank senkte 2025 den Leitzins."

wird in strukturierter Form gespeichert als:

Europäische Zentralbank → senkte (2025) → Leitzins

Solche automatisch gewonnenen Fakten werden mit bestehenden Graph-Relationen abgeglichen. Stimmen Quelle und Kontext, gelangen sie in den Knowledge Vault.

3. Architektur des Knowledge Vault

Der Vault kombiniert symbolische Präzision mit statistischem Lernen.

Er besteht aus drei Ebenen:

Symbolische Ebene – basiert auf den stabilen Entitäten und Relationen des Knowledge Graph.

Statistische Ebene – sammelt neue, unstrukturierte Informationen aus Web-Quellen, Büchern und Nachrichten.

Vertrauensebene – bewertet jede Aussage mit einem Wahrscheinlichkeitswert (Confidence Score).

Jeder neu entdeckte Fakt wird nicht einfach übernommen, sondern erhält eine numerische Bewertung, etwa:

Galileo Galilei → entdeckte → Jupitermonde (0,97)

Das bedeutet: Das System ist zu 97 Prozent sicher, dass diese Aussage korrekt ist.

Nur Fakten oberhalb eines bestimmten Schwellenwerts werden dauerhaft gespeichert.

4. Datenquellen und Signalvielfalt

Während der Knowledge Graph primär auf kuratierten Quellen basiert, integriert der Vault eine breitere Datenlandschaft:

Wikipedia / Wikidata / DBpedia – Grundgerüst strukturierter Entitäten.

Nachrichten und Webartikel – unstrukturierte Texte für aktuelle Ereignisse.

Google Books, Patente, wissenschaftliche Datenbanken – sachbezogenes Fachwissen.

Nutzerverhalten (anonymisiert) – aggregierte Signale über Häufigkeit und Kontext von Suchanfragen.

Durch diese Mischung entsteht ein hybrides Wissenssystem:

Der Graph liefert Stabilität, der Vault sorgt für Aktualität.

5. Extraktion und Bewertung neuer Fakten

Der maschinelle Prozess folgt mehreren Schritten:

Texterkennung – Das System analysiert Web-Dokumente mit NLP-Modellen.

Relationsextraktion – Aus syntaktischen Mustern entstehen potenzielle Tripel.

Abgleich – Die Tripel werden mit bestehenden Relationen verglichen.

Bewertung – Ein neuronales Modell schätzt die Wahrscheinlichkeit der Richtigkeit.

Speicherung – Fakten mit hoher Sicherheit werden im Vault abgelegt.

Jeder Eintrag enthält Metadaten wie Zeitstempel, Quelltyp und Sprachenkontext.

Dadurch kann Google später rekonstruieren, wann, wo und aus welchem Dokument ein Fakt gelernt wurde.

6. Vom Deterministischen zum Probabilistischen

Der entscheidende Unterschied zwischen Knowledge Graph und Vault liegt im Wahrheitsmodell:

Im Knowledge Graph ist eine Aussage wahr oder falsch.

Im Knowledge Vault ist sie wahrscheinlich wahr.

Diese probabilistische Sicht erlaubt es, auch unsichere oder neue Fakten zu verarbeiten.

Wenn etwa verschiedene Artikel behaupten, „das James-Webb-Teleskop entdeckte eine neue Galaxie", sammelt der Vault diese Belege, berechnet ihre Konsistenz und weist dem Fakt eine Wahrscheinlichkeit zu.

Liegt sie über einem definierten Grenzwert (z. B. 0,8), wird der Fakt sichtbar. Liegt sie darunter, bleibt er in einem Zwischenzustand – gespeichert, aber nicht veröffentlicht.

Damit kann Google kontinuierlich lernen, ohne menschliche Freigabeprozesse abzuwarten.

7. Konsistenzprüfung und logische Regeln

Um Fehler zu vermeiden, unterzieht der Vault alle neuen Fakten einer Konsistenzprüfung.

Diese basiert auf logischen Einschränkungen aus Ontologien, zum Beispiel:

Eine Person kann nur einmal geboren werden.

Ein Land hat eine Hauptstadt.

Eine Relation „Teil von" darf keine geschlossene Schleife bilden.

Diese Consistency Constraints verhindern, dass widersprüchliche oder unmögliche Relationen entstehen.

Wenn zwei Aussagen in Konflikt stehen, gewinnt jene mit höherem Vertrauenswert – ähnlich einem wissenschaftlichen Peer-Review-Prozess.

8. Lernen durch Vektorräume und Embeddings

Seit der Einführung neuronaler Sprachmodelle (BERT, MUM, Gemini) kombiniert Google symbolisches und statistisches Wissen in semantischen Vektorräumen.

Entitäten werden dort als Punkte im Raum dargestellt; ihre Nähe spiegelt inhaltliche Verwandtschaft wider.

Beispiel: So erkennt das System nicht nur explizite Relationen, sondern auch implizite:

„Tesla" liegt in der Nähe von „Elektromobilität", „Batterie", „Nachhaltigkeit".

Diese Nähe erzeugt semantische Vorschläge, die später durch Textanalyse bestätigt werden können.

Der Vault nutzt diese Vektoren, um neue Relationen vorherzusagen, bevor sie sprachlich formuliert sind.

Er wird damit zu einem lernenden Modell, das Wissen antizipiert, nicht nur abbildet.

9. Zusammenspiel von Knowledge Graph und Vault

Trotz der neuen Architektur ersetzt der Vault den Graph nicht – er ergänzt ihn.

Beide Systeme interagieren eng miteinander:

Ebene Funktion Ergebnis
Knowledge Graph stabile, geprüfte Fakten symbolisches Grundgerüst
Knowledge Vault automatisch gelernte Fakten dynamische Erweiterung
Verknüpfung gegenseitige Validierung adaptives Weltmodell

Wenn der Vault eine neue, sehr wahrscheinliche Relation entdeckt, kann sie nach zusätzlicher Prüfung in den Graph übernommen werden.

Umgekehrt dienen Graph-Relationen als Trainingsdaten für die Modelle des Vault.

So entsteht ein Kreislauf zwischen Struktur und Lernen – zwischen festem Wissen und fließender Erkenntnis.

10. Auswirkungen auf Suche und KI-Systeme

Für die Google-Suche bedeutet diese Entwicklung eine tiefere Form des Verstehens.

Suchergebnisse basieren nicht mehr nur auf Textübereinstimmungen, sondern auf semantischen Beziehungen zwischen Fakten.

Beispiel: Eine Anfrage wie „Wer leitete die Europäische Zentralbank während der Pandemie?" verlangt Verknüpfungen zwischen Institution, Ereignis und Zeitraum.

Der Vault liefert diese Informationen dynamisch, auch wenn sie erst kürzlich entstanden sind.

Gleichzeitig bildet er die Grundlage für AI Overviews und generative Suchsysteme wie Gemini:

Die KI kann auf ein probabilistisches Wissensnetz zugreifen, das weit über kuratierte Quellen hinausgeht.

Für Inhalte-Ersteller heißt das:

Strukturierte, verlässliche Daten stärken den Graph.

Kontextreiche, aktuelle Inhalte nähren den Vault.

Zusammen erzeugen sie semantische Sichtbarkeit – sowohl in klassischen Ergebnissen als auch in KI-Antworten.

11. Herausforderungen und Risiken

So mächtig der Vault ist, so problematisch kann er sein.

Automatische Wissensextraktion birgt Fehlerquellen:

Mehrdeutigkeit – Metaphern, Ironie oder Fachjargon können falsch interpretiert werden.

Fehlinformation – häufig wiederholte Irrtümer erhöhen scheinbar die Wahrscheinlichkeit.

Datenbias – dominante Sprachräume oder Kulturkreise prägen das Modell überproportional.

Mangelnde Nachvollziehbarkeit – ein Wahrscheinlichkeitswert ersetzt keine Quelle.

Daher kombiniert Google maschinelles Lernen weiterhin mit menschlicher Kuratierung – etwa über Wikipedia-Communitys, Qualitätsrichtlinien und Feedback-Mechanismen.

Der Vault ist kein Ersatz für menschliches Wissen, sondern dessen maschinelle Erweiterung.

12. Fazit – Vom Wissen zum Lernen

Der Knowledge Graph ordnet, der Knowledge Vault lernt.

Gemeinsam bilden sie das Fundament des semantischen Zeitalters:

Ein System, das nicht nur Daten verknüpft, sondern Bedeutungen bewertet.

Für Suchmaschinen bedeutet das die Vereinigung von Ontologie und Statistik.

Für die SEO-Praxis bedeutet es:

Ontologische Klarheit bleibt Voraussetzung – eindeutige Entitäten, konsistente Struktur, saubere Daten.

Statistische Relevanz gewinnt an Bedeutung – Inhalte, die neue Zusammenhänge schaffen, stärken die Lernprozesse der KI.

Semantische Sichtbarkeit entsteht dort, wo Struktur und Bedeutung aufeinandertreffen.

Der Knowledge Vault ist somit kein Ersatz des Graph, sondern seine logische Weiterentwicklung – vom geordneten Wissen hin zum lernenden Verständnis.

Über den Autor

Marcus A. Volz ist Wirtschaftswissenschaftler, Linguist und Berater für semantische SEO. Er analysiert, wie Suchmaschinen Bedeutung verstehen und wie Marken durch semantische Klarheit sichtbar werden. Als Gründer von eLengua verbindet er ökonomisches Denken mit linguistischer Präzision, um Unternehmen im Zeitalter der KI-Suche strategisch zu positionieren. Sein Fokus liegt auf Entity SEO, semantischer Architektur und der Optimierung von Markenidentitäten in generativen Systemen.

Häufig gestellte Fragen (FAQ)

Was ist der Unterschied zwischen Knowledge Graph und Knowledge Vault?

Der Knowledge Graph basiert auf kuratierten, stabilen Datenquellen und arbeitet mit deterministischen Relationen (wahr/falsch). Der Knowledge Vault hingegen lernt automatisch aus unstrukturierten Texten, bewertet Fakten probabilistisch und erweitert das Wissen kontinuierlich ohne manuelle Pflege.

Wie extrahiert der Knowledge Vault neue Fakten?

Der Vault nutzt Natural Language Processing (NLP), um aus Texten Subjekt-Prädikat-Objekt-Tripel zu bilden. Diese werden mit bestehenden Relationen abgeglichen, von neuronalen Modellen bewertet und bei hoher Wahrscheinlichkeit gespeichert – inklusive Metadaten zu Quelle, Zeit und Kontext.

Was bedeutet probabilistisches Wissen?

Statt Fakten als absolut wahr oder falsch zu behandeln, weist der Vault jedem Fakt eine Wahrscheinlichkeit zu (z. B. 0,97 für 97% Sicherheit). Nur Fakten oberhalb eines Schwellenwerts werden veröffentlicht. Dies ermöglicht kontinuierliches Lernen ohne strikte Validierung jeder einzelnen Information.

Welche Datenquellen nutzt der Knowledge Vault?

Der Vault integriert Wikipedia, Wikidata und DBpedia als Grundgerüst, erweitert dies aber um Nachrichten, Webartikel, Google Books, Patente, wissenschaftliche Datenbanken und anonymisierte Nutzersignale. Diese Vielfalt ermöglicht Aktualität bei gleichzeitiger Strukturstabilität.

Was sind Consistency Constraints?

Consistency Constraints sind logische Einschränkungen, die unmögliche Relationen verhindern (z. B. „eine Person kann nur einmal geboren werden"). Bei Konflikten zwischen Aussagen gewinnt jene mit höherem Vertrauenswert – ähnlich einem wissenschaftlichen Review-Prozess.

Wie funktionieren semantische Vektorräume im Vault?

Entitäten werden als Punkte in mehrdimensionalen Räumen dargestellt, wobei ihre Nähe inhaltliche Verwandtschaft ausdrückt. So kann der Vault implizite Relationen erkennen und neue Verbindungen vorhersagen, bevor sie sprachlich formuliert sind – der Übergang vom abbildenden zum antizipierenden System.

Ersetzt der Knowledge Vault den Knowledge Graph?

Nein, beide ergänzen sich. Der Graph liefert das stabile, symbolische Grundgerüst, der Vault sorgt für dynamische Erweiterung. Neue, gut bestätigte Vault-Fakten können in den Graph übernommen werden, während Graph-Relationen als Trainingsdaten für Vault-Modelle dienen.

Welche Risiken birgt automatische Wissensextraktion?

Hauptrisiken sind Mehrdeutigkeit (Fehlinterpretation von Metaphern/Ironie), Fehlinformation (häufig wiederholte Irrtümer erhöhen scheinbar die Wahrscheinlichkeit), Datenbias (überproportionale Prägung durch dominante Sprachräume) und mangelnde Nachvollziehbarkeit. Google begegnet dem durch Redundanzprüfung und menschliche Kuratierung.

Was bedeutet der Knowledge Vault für SEO?

Strukturierte, verlässliche Daten stärken weiterhin den Graph. Neu ist: Kontextreiche, aktuelle Inhalte nähren den Vault. Semantische Sichtbarkeit entsteht, wo ontologische Klarheit auf statistische Relevanz trifft – in klassischen Suchergebnissen wie auch in generativen KI-Antworten.

Wie nutzen AI Overviews und Gemini den Knowledge Vault?

Generative Suchsysteme greifen auf das probabilistische Wissensnetz des Vault zu, das weit über kuratierte Quellen hinausgeht. Sie können dadurch dynamisch Zusammenhänge zwischen Institution, Ereignis und Zeitraum herstellen – auch bei erst kürzlich entstandenen Informationen.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert