Die 8 fundamentalen Schwächen von LLMs
Warum ChatGPT, Claude und Co. alleine nicht produktionsreif sind - und was Sie dagegen tun können.
TL;DR
LLMs haben 8 fundamentale Schwächen: Halluzinationen (erfinden Fakten), kein Gedächtnis (vergessen alles), Kontextlimits (Tunnelblick), probabilistisch (raten statt wissen), kein Business-Kontext (generische Antworten), keine Selbstreflexion (keine proaktiven Warnungen), Prompt-Abhängigkeit (Qualität = Fragequalität), ungeleitet (kein roter Faden). Diese Schwächen sind strukturell - nicht behebbar durch bessere Modelle. Ein Intelligence Layer kompensiert sie durch deterministische Fakten, persistentes Wissen, strukturierten Kontext, proaktive Alerts und Workflow-Guidance.
Wichtigste Erkenntnisse
Halluzinationen
LLMs erfinden plausibel klingende Fakten - gefährlich für Entscheidungen
Kein Gedächtnis
Nach jedem Chat beginnt alles von vorn - kein Lernen über Zeit
Kontextlimit
LLMs können nicht alles gleichzeitig sehen - übersehen Zusammenhänge
Kein Business-Kontext
Ohne Unternehmenswissen nur generische Antworten möglich
Warum dieser Artikel wichtig ist
Large Language Models (LLMs) wie ChatGPT, Claude oder GPT-4 sind beeindruckend. Sie können Texte schreiben, Code generieren und Fragen beantworten. Aber sie haben fundamentale Schwächen, die sie für den produktiven Business-Einsatz ungeeignet machen - zumindest alleine.
Diese Schwächen sind nicht behebbar durch bessere Modelle oder mehr Training. Sie sind strukturell in der Architektur von LLMs verankert. Wenn Sie verstehen, wo LLMs versagen, können Sie die richtigen Systeme drumherum bauen.
Die 8 fundamentalen Schwächen
1. Halluzinationen: Plausible Lügen
Was passiert: LLMs erfinden Fakten, die plausibel klingen, aber objektiv falsch sind. Sie unterscheiden nicht zwischen "ich weiß es" und "ich rate es". Beides wird mit der gleichen Überzeugung präsentiert.
Warum das teuer ist: In einer Immobilienverwaltung kann ein erfundenes Datum katastrophal sein. "Der Energieausweis für die Mozartstraße 42 wurde am 15. März eingereicht" - wenn das nicht stimmt, haben Sie rechtliche Probleme. Bei Sanierungsprojekten können erfundene technische Spezifikationen zu Fehlplanungen und Mehrkosten im fünfstelligen Bereich führen.
Warum es passiert: LLMs sind darauf trainiert, wahrscheinlichen Text zu generieren. Sie haben kein Konzept von "Wahrheit" - nur von "wahrscheinlich". Wenn sie nicht wissen, was am 15. März passiert ist, erfinden sie etwas, das wahrscheinlich klingt.
Beispiel aus der Praxis: Sie fragen: "Wann wurde der letzte Wartungsvertrag für die Heizungsanlage in der Karlstraße verlängert?" Die KI antwortet: "Der Wartungsvertrag wurde am 12. Januar 2024 für weitere 3 Jahre verlängert." Klingt gut, aber wenn Sie es prüfen, gibt es diesen Vertrag gar nicht mehr - er wurde 2023 gekündigt.
2. Kein Langzeitgedächtnis: Jeden Tag Groundhog Day
Was passiert: Nach dem Chat ist alles vergessen. Jedes Gespräch startet bei Null. Die KI lernt nicht aus Ihren Interaktionen. Was Sie gestern erklärt haben, muss heute erneut erklärt werden.
Warum das teuer ist: In einer Hausverwaltung mit hunderten Properties verbringen Sie Ihre Zeit damit, der KI immer wieder die gleichen Zusammenhänge zu erklären. "Kunde Müller hat eine Finanzierung bei der Sparkasse" - das müssen Sie bei jedem Chat wiederholen. Es gibt keinen Aufbau von Unternehmenswissen.
Warum es passiert: LLMs sind zustandslos. Jede Anfrage ist isoliert. Selbst wenn ein Chat Verlauf vorhanden ist, kann die KI nicht aus früheren Gesprächen lernen und dieses Wissen persistieren.
Beispiel aus der Praxis: Am Montag haben Sie mit der KI über das Sanierungsprojekt in der Bahnhofstraße gesprochen - Budget, Zeitplan, Gewerke. Am Dienstag fragen Sie nach dem Status. Die KI weiß nichts davon. Sie müssen alles erneut erklären.
3. Kontextfenster-Limit: Tunnelblick statt Überblick
Was passiert: LLMs können nur eine begrenzte Menge Text gleichzeitig "sehen". Selbst die besten Modelle sind auf 100.000 bis 200.000 Tokens limitiert (ca. 75.000 bis 150.000 Wörter). Das klingt nach viel, ist es aber nicht.
Warum das teuer ist: Sie verwalten 200 Objekte mit je 50 Seiten Dokumentation. Das sind 10.000 Seiten. Die KI kann nicht alle gleichzeitig analysieren. Sie übersieht Zusammenhänge zwischen Objekten, Patterns über Ihr Portfolio, Risiken die sich nur im Gesamtbild zeigen.
Warum es passiert: Die Transformer-Architektur von LLMs skaliert quadratisch mit der Kontextlänge. Doppelter Kontext = vierfache Rechenkosten. Es gibt physikalische und ökonomische Grenzen.
Beispiel aus der Praxis: Sie laden 50 Exposés hoch und fragen: "Welche 5 Properties passen am besten für einen Investor der Bestandsimmobilien mit Wertsteigerungspotenzial sucht?" Die KI kann nicht alle 50 gleichzeitig vergleichen. Sie sieht nur einen Teil und macht eine unvollständige Analyse.
4. Probabilistische Natur: Raten statt Wissen
Was passiert: LLMs "raten" basierend auf Wahrscheinlichkeiten. Sie generieren das wahrscheinlichste nächste Wort, nicht die korrekte Antwort. Es gibt keine Garantie für Korrektheit. Die gleiche Frage kann unterschiedliche Antworten liefern - bei jedem Aufruf.
Warum das teuer ist: In einem Business brauchen Sie deterministische Fakten. "Wie viele Objekte habe ich im Portfolio?" muss immer die gleiche Antwort liefern. "Welche rechtlichen Fristen laufen im März ab?" darf nicht von Zufall abhängen.
Warum es passiert: LLMs sind probabilistische Systeme. Sie haben keine Datenbank im klassischen Sinne. Sie generieren Text basierend auf Mustern aus dem Training. Selbst bei Temperature 0 (maximale Determinismus) gibt es Varianz.
Beispiel aus der Praxis: Sie fragen dreimal: "Wie viele Properties haben eine Energieeffizienz unter C?" Sie bekommen drei verschiedene Antworten: "23", "18", "etwa 20". Keine davon ist zuverlässig, weil die KI keinen Datenbankzugriff hat und nur rät.
5. Kein Unternehmenskontext: Der uninformierte Experte
Was passiert: LLMs wissen nichts über IHR Business. Sie kennen weder Ihre Kunden noch Ihre Prozesse noch Ihre historischen Entscheidungen noch Ihre Branchenspezifika. Sie sind generische Systeme.
Warum das teuer ist: Generische Antworten helfen nicht. "Wie sollte ich mit Kunde Müller kommunizieren?" - ohne Kontext über Müllers Präferenzen, Historie und aktuelle Situation ist die Antwort wertlos. Sie müssen alles manuell erklären, bei jedem Chat aufs Neue.
Warum es passiert: LLMs werden auf öffentlichen Daten trainiert. Ihre privaten Unternehmensdaten sind nicht Teil des Trainings. Selbst mit RAG (Retrieval Augmented Generation) fehlt der strukturierte Kontext über Beziehungen, Prozesse und Präferenzen.
Beispiel aus der Praxis: Sie fragen: "Schreibe ein Angebot für die Sanierung der Bahnhofstraße 12." Die KI generiert ein generisches Angebot. Es fehlen: Ihre Preisstrategien, die Historie mit diesem Kunden, die spezifischen Gewerke die Sie normalerweise einsetzen, die rechtlichen Rahmenbedingungen Ihrer Region.
6. Weiß nicht, was es nicht weiß: Keine Selbstreflexion
Was passiert: LLMs sind nicht proaktiv. Sie denken nicht an das, woran SIE nicht gedacht haben. Sie warnen nicht vor Problemen, die Sie nicht explizit abfragen. Sie haben keine Checklisten, keine Compliance-Regeln, keine Warnsysteme.
Warum das teuer ist: In regulierten Industries wie Immobilien gibt es hunderte kritische Fristen, Dokumente und Compliance-Anforderungen. Wenn Sie nicht explizit danach fragen, weist die KI Sie nicht darauf hin. Blinde Flecken bleiben blind.
Warum es passiert: LLMs sind reaktive Systeme. Sie antworten auf Prompts. Sie haben kein internes Modell Ihres Business, das proaktiv Probleme identifiziert.
Beispiel aus der Praxis: Sie arbeiten an einem Deal für die Mozartstraße 42. Die KI hilft Ihnen beim Exposé. Was sie NICHT tut: Sie warnen, dass der Energieausweis seit 8 Tagen fehlt, dass drei Dokumente für die Finanzierung noch ausstehen, dass die Baugenehmigung in 14 Tagen ausläuft. Sie müssen explizit danach fragen - wenn Sie daran denken.
7. Prompt-Abhängigkeit: Garbage in, garbage out
Was passiert: Die Qualität der Antwort entspricht direkt der Qualität der Frage. Schlechter Prompt = schlechte Antwort. Genialer Prompt = geniale Antwort. Das Problem: Sie müssen wissen, WAS Sie fragen sollen. Das erfordert Expertise.
Warum das teuer ist: Prompt Engineering ist eine Skill. Nicht jeder in Ihrem Team hat sie. "Schreib ein Exposé" liefert generischen Output. "Schreibe ein Exposé für eine 340m² Villa im gehobenen Segment, Energieeffizienz A+, Zielgruppe Familien mit hohem Einkommen, betone die Lage in Schulnähe und die Wertsteigerung der letzten 5 Jahre" liefert bessere Ergebnisse - aber Sie müssen das wissen.
Warum es passiert: LLMs sind Inferenzmaschinen. Sie extrahieren die Intention aus Ihrem Prompt. Je präziser der Prompt, desto präziser die Antwort. Es gibt keine "Intelligenz" die Ihre vage Frage in eine präzise umwandelt.
Beispiel aus der Praxis: Mitarbeiter A fragt: "Was ist der Status vom Deal?" Die KI liefert eine vage Zusammenfassung. Mitarbeiter B fragt: "Gib mir eine strukturierte Übersicht zum Deal Mozartstraße 42: Status aller Dokumente, offene Aufgaben mit Owner und Deadline, Risiken im Zeitplan, nächste Schritte." Die KI liefert genau das. Ergebnis: Ungleiche Arbeitsqualität basierend auf Prompt-Skills.
8. Ungeleitet: Springen ohne roten Faden
Was passiert: LLMs springen zwischen Themen ohne strukturierte Durcharbeitung. Es gibt keine automatische Workflow-Engine. Keine Checklisten. Kein "erst A, dann B, dann C". Sie antworten auf das, was Sie fragen - nicht auf das, was als Nächstes logisch wäre.
Warum das teuer ist: In komplexen Prozessen (Deal-Closing, Sanierungsplanung, Due Diligence) gibt es eine optimale Reihenfolge. Wenn die KI Sie nicht durch diesen Prozess führt, überspringen Sie Schritte. Das führt zu Nacharbeit und Verzögerungen.
Warum es passiert: LLMs haben kein prozedurales Wissen über Ihre Workflows. Sie sind generische Konversationsmaschinen, keine Workflow-Engines.
Beispiel aus der Praxis: Sie fragen nach einem Deal. Die KI antwortet mit einer Zusammenfassung. Was sie NICHT tut: Systematisch alle relevanten Aspekte durchgehen - Dokumente prüfen, Aufgaben checken, Kundenhistorie analysieren, Risiken identifizieren, nächste Schritte vorschlagen. Sie müssen jeden Schritt manuell nachfragen.
Die Lösung: Ein Intelligence Layer
Diese acht Schwächen sind nicht behebbar - sie sind strukturell in der Architektur von LLMs verankert. Auch GPT-5 oder GPT-6 werden sie haben. Aber sie können kompensiert werden.
Ein Intelligence Layer sitzt zwischen Ihren Daten und dem LLM. Er macht das LLM produktionsreif.
Was ein Intelligence Layer leistet
- Gegen Halluzinationen: Deterministische Fakten aus Knowledge Graphs statt Raterei. Die KI sagt nicht "wahrscheinlich X", sondern "laut Datenbank exakt X".
- Gegen Gedächtnisverlust: Persistentes Wissen das nie vergisst. Jede Interaktion wird gespeichert, strukturiert, mit dem Graph verbunden.
- Gegen Kontextlimits: Komprimierter, relevanter Kontext der ins Fenster passt. Der Graph liefert nur das, was für die aktuelle Frage relevant ist - nicht alles.
- Gegen fehlenden Business-Kontext: Strukturiertes Unternehmenswissen über Kunden, Prozesse, Historie. Der Graph IST Ihr Business-Kontext.
- Gegen blinde Flecken: Proaktive Alerts und Compliance-Checks. Der Graph weiß, dass der Energieausweis fehlt und warnt Sie.
- Gegen Prompt-Abhängigkeit: Intelligente Query-Expansion. Ihre vage Frage wird in eine präzise Graph-Query übersetzt.
- Gegen fehlende Struktur: Workflow-Guided Interactions. Der Graph führt Sie durch den optimalen Prozess.
Konkret: Osiris
Osiris ist unser Intelligence Layer für Immobilien-Unternehmen. Er verbindet Ihre Properties, Kunden, Deals, Dokumente und Aufgaben in einem Knowledge Graph. Das LLM wird vom generischen Chatbot zum spezialisierten Business-Assistenten.
Beispiel: Sie fragen: "Was ist der Status vom Deal Mozartstraße 42?"
Ohne Osiris (reines LLM): "Ich habe keine Informationen über diesen Deal. Können Sie mehr Details geben?"
Mit Osiris: "Deal Mozartstraße 42 - Status: In Due Diligence. ⚠️ WARNUNG: Energieausweis fehlt seit 8 Tagen (Frist läuft in 6 Tagen). Offene Dokumente: Finanzierungsbestätigung (Owner: Müller, Deadline: morgen), Baugutachten (Owner: Schmidt, überfällig seit 3 Tagen). Nächster Schritt: Finanzierungsbestätigung einholen, sonst gefährdet das den Zeitplan für die Notartermin in 2 Wochen."
Das ist der Unterschied zwischen einem Tool und einem System.
Fazit: LLMs sind brilliant - aber nicht alleine
Large Language Models sind die mächtigste Technologie seit dem Internet. Aber sie sind nicht produktionsreif für kritische Business-Prozesse - nicht alleine. Die acht fundamentalen Schwächen sind strukturell und nicht behebbar.
Die Lösung ist nicht, auf bessere LLMs zu warten. Die Lösung ist, die richtigen Systeme drumherum zu bauen. Ein Intelligence Layer macht aus einem beeindruckenden Demo einen zuverlässigen Business-Assistenten.
Wenn Sie verstehen, wo LLMs versagen, können Sie die richtigen Entscheidungen treffen. Sie investieren nicht in Chatbot-Theater, sondern in echte Produktivitätssteigerung.
→ Erfahren Sie mehr über Osiris, unseren Intelligence Layer für Immobilien-Unternehmen
Häufig gestellte Fragen
Kann ich LLM-Halluzinationen durch bessere Prompts vermeiden?
Nur teilweise. Bessere Prompts reduzieren Halluzinationen, eliminieren sie aber nicht. Halluzinationen sind strukturell in der probabilistischen Natur von LLMs verankert. Für zuverlässige Fakten brauchen Sie eine externe, deterministische Wissensquelle wie einen Knowledge Graph. Der Graph liefert Fakten, das LLM formuliert sie verständlich.
Werden zukünftige LLMs wie GPT-5 diese Schwächen beheben?
Einige Schwächen werden sich verbessern (größere Kontextfenster, weniger Halluzinationen bei bekannten Fakten), aber die fundamentale Architektur bleibt probabilistisch und zustandslos. Auch GPT-5 oder GPT-6 werden raten statt wissen, nichts über Ihr spezifisches Business wissen und nach jedem Chat alles vergessen. Ein Intelligence Layer wird auch bei zukünftigen Modellen notwendig sein.
Reicht RAG (Retrieval Augmented Generation) nicht aus?
RAG hilft bei einigen Schwächen (Business-Kontext, Halluzinationen), aber nicht bei allen. Insbesondere: (1) Beziehungen zwischen Daten sind in klassischem RAG nicht abbildbar, (2) proaktive Alerts erfordern strukturierte Regeln, (3) Workflow-Guidance braucht prozedurales Wissen. GraphRAG mit Knowledge Graphs ist deutlich mächtiger als Vektor-basiertes RAG, weil es Beziehungen explizit modelliert.
Kostet ein Intelligence Layer nicht viel mehr als ein einfacher Chatbot?
Die Implementierung ist aufwendiger, ja. Aber die Alternative ist teurer: Ein Chatbot der halluziniert, Zusammenhänge übersieht und Sie nicht vor kritischen Fristen warnt, kostet Sie durch Fehler, Nacharbeit und verpasste Chancen ein Vielfaches. Ein Intelligence Layer ist keine Zusatzfunktion - er ist die Voraussetzung für produktiven LLM-Einsatz in kritischen Prozessen.
Kann ich mit Fine-Tuning ein LLM auf mein Business trainieren?
Fine-Tuning verbessert den Schreibstil und die Domänen-Sprache, löst aber die fundamentalen Schwächen nicht. Ein fine-getuntes Modell hat immer noch: kein Gedächtnis (vergisst nach dem Chat), keine deterministischen Fakten (rät immer noch), keine proaktiven Alerts (warnt nicht vor Problemen), kein strukturiertes Wissen über Beziehungen (weiß nicht, dass Deal X mit Property Y verbunden ist). Fine-Tuning ist nützlich, aber kein Ersatz für einen Intelligence Layer.
Anwendungsfälle
- AI Strategy Evaluation
- LLM Deployment Planning
- Intelligence Layer Design
- Business Case for Knowledge Graphs
- Risk Assessment AI Implementation
Voraussetzungen
- Basic understanding of LLMs
- Awareness of business-critical processes