Knowledge Graphs vs. Vector RAG: Der fundamentale Unterschied
Warum GraphRAG 3,4x genauer ist als klassisches RAG - und wann Sie welchen Ansatz brauchen.
TL;DR
Vector RAG findet ähnliche Texte. Knowledge Graphs verstehen Beziehungen. GraphRAG kombiniert beides = 3,4x genauer, 100x weniger Tokens, Multi-Hop Queries möglich. Für CRM/ERP-Anwendungen unverzichtbar.
Wichtigste Erkenntnisse
Vector RAG
Findet ähnliche Texte - gut für Fragen zu Dokumenten, schwach bei Beziehungen
Knowledge Graphs
Versteht Beziehungen - perfekt für 'Wer kennt wen? Was hängt womit zusammen?'
GraphRAG
Kombiniert beide Ansätze - 3,4x genauer als Vector RAG allein
Business-Relevanz
Für CRM, ERP und Prozesse sind Beziehungen wichtiger als Textähnlichkeit
Das Problem mit "einfachem" RAG
RAG (Retrieval Augmented Generation) ist der Standard-Ansatz um LLMs mit externem Wissen zu verbinden. Die Idee: Bevor das LLM antwortet, suchen wir relevante Dokumente und geben sie als Kontext mit.
Das funktioniert - bis Sie Fragen stellen wie:
- "Warum stockt der Deal mit Kunde Müller?"
- "Welche Objekte haben ähnliche Probleme wie die Mozartstraße?"
- "Wer ist der Notar für die Deals in Hamburg?"
Diese Fragen brauchen Beziehungswissen. Sie fragen nicht nach einem Dokument - Sie fragen nach Zusammenhängen.
Wie Vector RAG funktioniert
Schritt 1: Indexierung
Ihre Dokumente werden in kleine Chunks zerlegt (z.B. 500 Tokens). Jeder Chunk wird durch ein Embedding-Modell in einen Vektor umgewandelt - eine mathematische Repräsentation der semantischen Bedeutung.
Schritt 2: Suche
Ihre Frage wird ebenfalls in einen Vektor umgewandelt. Dann sucht das System nach den Chunks, deren Vektoren am ähnlichsten sind (Cosine Similarity).
Schritt 3: Antwort
Die ähnlichsten Chunks werden als Kontext an das LLM gegeben, das dann antwortet.
Stärken von Vector RAG
- Findet semantisch ähnliche Inhalte (nicht nur Keywords)
- Einfach zu implementieren
- Gut für Dokumenten-Fragen ("Was steht im Vertrag zu X?")
Schwächen von Vector RAG
- Keine Beziehungen: "Kunde Müller" und "Deal Mozartstraße" sind separate Chunks - das System weiß nicht, dass sie verbunden sind
- Kontextverlust: Chunks sind isoliert. Der Zusammenhang zum Gesamtdokument geht verloren
- Keine Traversierung: "Zeig mir alle Deals von Kunden aus Hamburg" erfordert Multi-Hop Reasoning - Vector RAG kann das nicht
- Halluzinationsrisiko: Wenn der richtige Chunk nicht gefunden wird, rät das LLM
Wie Knowledge Graphs funktionieren
Ein Knowledge Graph speichert Wissen als Entitäten (Knoten) und Beziehungen (Kanten):
[Kunde: Müller] --INTERESSIERT_AN--> [Objekt: Mozartstraße]
| |
| |
--HAT_NOTAR--> --FEHLT_DOKUMENT-->
| |
v v
[Notar: Schmidt] [Dokument: Energieausweis]
Traversierung statt Suche: Um herauszufinden warum der Deal stockt, traversiert das System den Graphen:
- Finde Kunde Müller
- Folge INTERESSIERT_AN zu Objekt Mozartstraße
- Folge FEHLT_DOKUMENT zu Energieausweis
- → "Deal stockt weil Energieausweis fehlt"
Stärken von Knowledge Graphs
- Beziehungswissen: Versteht WER mit WEM und WAS mit WAS verbunden ist
- Multi-Hop Queries: "Zeig mir alle Deals von Kunden, deren Notar in Hamburg sitzt"
- Deterministische Antworten: Entweder die Beziehung existiert oder nicht - kein Raten
- Erklärbarkeit: Der Pfad durch den Graphen zeigt WIE die Antwort zustande kam
Schwächen von Knowledge Graphs (alleine)
- Strukturierte Daten nötig: Unstrukturierte Texte müssen erst extrahiert werden
- Schema-Design: Die Ontologie muss durchdacht sein
- Kein semantisches Verständnis: Findet nur exakte Matches, keine "ähnlichen" Konzepte
GraphRAG: Das Beste aus beiden Welten
GraphRAG kombiniert Knowledge Graphs mit Vector RAG:
┌─────────────────────────────────────────────────────────┐
│ Frage: "Warum stockt der Deal Mozartstraße?" │
└─────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ 1. Entity Extraction: "Deal Mozartstraße" identifiziert│
└─────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ 2. Graph Traversal: Beziehungen folgen │
│ Deal → fehlende_Dokumente → Energieausweis │
│ Deal → letzte_Aktivität → vor 12 Tagen │
│ Deal → Ansprechpartner → Herr Weber │
└─────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ 3. Context Compression: Nur relevanter Subgraph │
│ (100x weniger Token als ganzes Dokument) │
└─────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────┐
│ 4. LLM Antwort mit deterministische Fakten │
│ "Der Deal stockt seit 12 Tagen weil der │
│ Energieausweis fehlt. Ansprechpartner: Hr. Weber" │
└─────────────────────────────────────────────────────────┘
Die Zahlen: GraphRAG vs. Vector RAG
| Metrik | Vector RAG | GraphRAG | Verbesserung |
|---|---|---|---|
| Genauigkeit bei Beziehungsfragen | Baseline | 3,4x höher | +240% |
| Halluzinationsrate | Baseline | 6-90% niedriger | Signifikant |
| Multi-Hop Query (3 Hops) | Nicht möglich | 30-150ms | ∞ |
| Token-Verbrauch | Baseline | 100x weniger | 99% Reduktion |
Quellen: Microsoft Research GraphRAG Paper (2024), Neo4j Benchmarks
Wann brauchen Sie was?
| Use Case | Vector RAG | GraphRAG |
|---|---|---|
| Fragen zu Dokumenteninhalten | ✅ Gut | ✅ Auch gut |
| Beziehungsfragen (Wer kennt wen?) | ❌ Schwach | ✅ Perfekt |
| Multi-Hop Reasoning | ❌ Nicht möglich | ✅ Kernstärke |
| CRM/ERP Integration | ⚠️ Begrenzt | ✅ Native |
| Erklärbare Antworten | ⚠️ Schwach | ✅ Pfad sichtbar |
| Setup-Komplexität | ✅ Einfach | ⚠️ Höher |
Fazit: Für Business-Anwendungen führt kein Weg an Knowledge Graphs vorbei
Wenn Sie nur Dokumente durchsuchen wollen, reicht Vector RAG. Aber sobald Sie mit CRM-Daten, Kundenbeziehungen, Prozessen und Zusammenhängen arbeiten, brauchen Sie einen Knowledge Graph.
Osiris nutzt Neo4j als Knowledge Graph und kombiniert es mit GraphRAG für das Beste aus beiden Welten.
Häufig gestellte Fragen
Kann ich nicht einfach alle Dokumente in ChatGPT laden?
Nein. ChatGPT hat ein Kontextlimit und vergisst nach dem Chat alles. Außerdem versteht es keine Beziehungen zwischen Dokumenten - es sieht nur Text.
Ist GraphRAG nicht viel aufwendiger zu implementieren?
Ja, initial mehr Aufwand. Aber der ROI ist enorm: 3,4x höhere Genauigkeit, 100x weniger Token-Kosten, und Antworten die tatsächlich stimmen statt halluziniert sind.
Welche Knowledge Graph Datenbank sollte ich nutzen?
Neo4j ist der Industriestandard für Property Graphs. Für RDF/SPARQL gibt es Amazon Neptune oder Stardog. Wir bei Osiris nutzen Neo4j wegen der Cypher Query Language und der LLM-Integration.
Quellen
- From Local to Global: A Graph RAG Approach - Microsoft Research (2024)
- Neo4j GraphRAG Benchmarks - Neo4j (2024)
Anwendungsfälle
- RAG Architektur-Entscheidung
- LLM Integration Planning
- Knowledge Base Design
Voraussetzungen
- Grundverständnis von Embeddings
- Basis-Wissen zu LLMs