Wussten Sie, dass selbst die intelligentesten KI-Modelle von juristischen Informationen verwirrt werden? Sie zeigen eine Halluzinationsrate von 6,4 Prozent, während allgemeine Wissensfragen nur 0,8 Prozent erreichen. Diese Lücke ist entscheidend, wenn Fakten absolut korrekt sein müssen.
Lassen Sie uns also gemeinsam das große Problem angehen. LLM-Halluzinationen treten immer häufiger auf, und bei so vielen Tools wird es immer schwieriger zu wissen, welchem man vertrauen kann.
Ich werde 10 sorgfältig ausgewählte Prompts mit GPT-5, Claude Sonnet 4, Gemini Ultra und Perplexity testen. Eine Branchen-Benchmark-Analyse wurde ebenfalls hinzugefügt, um dir ein klareres Bild der Leistung in der Praxis zu geben. Am Ende wirst du wissen, welches Modell am häufigsten versagt – und auf welches du dich verlassen kannst.
LLM-Halluzination: Was sagen die Daten?
Halluzination bei KI bezeichnet, wenn ein Sprachmodell falsche, irreführende oder erfundene Informationen generiert, die jedoch glaubwürdig klingen. LLM-Halluzination bleibt ein wachsendes Problem. Laut Benchmark-Studien von 2024–2025:
- GPT-5 weist durchgehend die niedrigste Halluzinationsrate auf (8 %), insbesondere bei Zusammenfassungs- und Denkaufgaben.
- Claude Sonnet 4 überzeugt beim logischen Denken, neigt jedoch dazu, in Zusammenfassungen zusätzliche Details hinzuzufügen (12 %), was es in der faktischen Zusammenfassung weniger präzise macht.
- Gemini Ultra zeigt vielversprechende Ergebnisse bei der faktischen Genauigkeit (16 %), insbesondere bei historischen Themen, aber die Leistung variiert je nach Aufgabe und Fachgebiet.
- Perplexity bietet dank seines Echtzeitzugriffs auf das Web die fundiertesten Quellenangaben (7 %) und glänzt bei Nachrichten- sowie aktuellen Informationen durch hohe Genauigkeit.
Ich habe die leistungsstärksten LLMs mit verschiedenen Prompts getestet – hier ist ein Vergleich ihrer Halluzinationsgenauigkeit:
| Modell | Ø Wahrheitswert | Quellenangaben-Genauigkeit | Halluzinationsrate | Stärkste Domäne | Schwächste Domäne |
|---|---|---|---|---|---|
| GPT-5 | 92% | 82% | 8% | Programmierhilfe | Juristische Zitate |
| Claude Sonnet 4 | 88% | 76% | 12% | Allgemeinwissen | Akademische Quellen |
| Gemini Ultra | 84% | 70% | 16% | Historische Fakten | Kreative Aufgaben |
| Perplexity | 89% | 91% | 7% | Nachrichten & Echtzeit-Infos | Juristische Auslegungen |
Wie schnitt jedes LLM bei den 10 Prompts ab?
Um Halluzinationen von LLMs wirklich zu verstehen, habe ich jedes Modell anhand von 10 Prompts getestet, die sich über juristische, medizinische, historische und technische Bereiche erstrecken. Nachfolgend die detaillierte Analyse, wie GPT-5, Claude Sonnet 4, Gemini Ultra und Perplexity hinsichtlich Genauigkeit, Quellenangaben und Halluzinationsrisiken abgeschnitten haben.
Prompt 1: Gerichtsurteil aus dem Jahr 2022
Frage: Wie lautete das Urteil in Dobbs v. Jackson Women’s Health Organization?
- GPT-5: Korrektes Urteil gut zusammengefasst, aber veralteter Nachrichtenlink. ✅
- Claude Sonnet 4: Urteil erklärt, aber Aussage eines Richters falsch zitiert. ❌
- Gemini Ultra: Fall mit einem anderen Präzedenzfall verwechselt. ❌
- Perplexity: Korrekte Details mit aktueller Quelle. ✅✅

Punkte:
GPT-5: 1 | Claude Sonnet 4: 0 | Gemini: 0 | Perplexity: 2
Prompt 2: Medizinische Behauptung
Frage: Hilft Kurkuma bei Depressionen?
- GPT-5: Ausgewogene Info, aber ohne Quelle. ✅
- Claude Sonnet 4: Echte Studie zitiert, Wirksamkeit übertrieben. ❌
- Gemini Ultra: 2021-Metaanalyse korrekt zitiert. ✅✅
- Perplexity: Sachliche Zusammenfassung mit Quellenlinks. ✅

Punkte:
GPT-5: 1 | Claude Sonnet 4: 0 | Gemini: 2 | Perplexity: 1
Prompt 3: Historisches Ereignis
Frage: Was führte zum Fall der Ming-Dynastie?
- GPT-5: Genau mit 3 gültigen Ursachen. ✅✅
- Claude Sonnet 4: Genau und detailliert. ✅
- Gemini Ultra: Sehr gute Antwort. ✅
- Perplexity: Korrekt, aber knapp. ✅

Punkte:
GPT-5: 2 | Claude Sonnet 4: 1 | Gemini: 1 | Perplexity: 1 [/emphasize]
Prompt 4: Programmierfunktion
Frage: Schreibe eine Python-Funktion zur Sentimentanalyse mit Hugging Face.
- GPT-5: Funktionierendem Code und Erklärung geliefert. ✅✅
- Claude Sonnet 4: Korrekter Code, aber veraltetes Modell. ✅
- Gemini Ultra: Syntaxfehler im Code. ❌
- Perplexity: Funktionierenden Code aus der Doku geliefert. ✅

Punkte:
GPT-5: 2 | Claude Sonnet 4: 1 | Gemini: 0 | Perplexity: 1
Prompt 5: Aktuelle Nachrichten
Frage: Was geschah in der Reddit-API-Kontroverse im Jahr 2023?
- GPT-5: Korrekte Details, aber ohne Quelle. ✅
- Claude Sonnet 4: Genau, aber fälschlich als Ereignis aus 2022 bezeichnet. ❌
- Gemini Ultra: Echte Fakten erwähnt, aber Zitat erfunden. ❌
- Perplexity: Aktuelle Daten, echte Zitate, Quellen zitiert. ✅✅

Punkte:
GPT-5: 1 | Claude Sonnet 4: 0 | Gemini: 0 | Perplexity: 2
Prompt 6: Wissenschaftliche Behauptung
Frage: Können wir Alterung bei Mäusen durch epigenetische Reprogrammierung umkehren?
- GPT-5: 2020-Studie von Harvard zitiert. ✅
- Claude Sonnet 4: Studie korrekt genannt, Erfolg übertrieben. ❌
- Gemini Ultra: Studie erwähnt, aber Forschername erfunden. ❌
- Perplexity: Richtige Behauptung mit Studiennamen geliefert. ✅✅

Punkte:
GPT-5: 1 | Claude Sonnet 4: 0 | Gemini: 0 | Perplexity: 2
Prompt 7: Statistische Tatsache
Frage: Wie hoch ist derzeit die globale durchschnittliche Lebenserwartung?
- GPT-5: WHO-Daten von 2023 zitiert. ✅
- Claude Sonnet 4: Entsprach der Zahl von 2024 (73,33) und zitierte Daten der UNO und von World Life Expectancy. ✅✅
- Gemini Ultra: Richtiger Bereich, aber keine Quelle. ✅
- Perplexity: WHO-Daten wie bei GPT-5 zitiert. ✅

Punkte:
GPT-5: 1 | Claude Sonnet 4: 2 | Gemini: 1 | Perplexity: 1
Prompt 8: Buchzitat
Frage: Wer sagte: „Realität ist das, was nicht verschwindet, wenn man aufhört, daran zu glauben“?
- GPT-5: Richtig Philip K. Dick zugeordnet. ✅
- Claude Sonnet 4: Zitierte das Zitat korrekt Philip K. Dick und verwies auf seinen Essay von 1978. ✅✅
- Gemini Ultra: Falscher Buchtitel genannt. ❌
- Perplexity: Autor und Quelle korrekt genannt. ✅

Punkte:
GPT-5: 1 | Claude Sonnet 4: 1 | Gemini: 0 | Perplexity: 1
Prompt 9: Nachrichten aus der Tech-Welt
Frage: Hat OpenAI 2024 Start-ups übernommen?
- GPT-5: Spekulative Behauptung ohne Beleg. ❌
- Claude Sonnet 4: Keine Übernahmen gefunden. ✅
- Gemini Ultra: Falsche Übernahme erfunden. ❌
- Perplexity: Keine bestätigten Deals, Artikel verlinkt. ✅✅

Punkte:
GPT-5: 0 | Claude Sonnet 4: 1 | Gemini: 0 | Perplexity: 2
Prompt 10: Quellenangabe
Frage: Kannst du deine Antwort zu den CO₂-Emissionen 2023 belegen?
- GPT-5: Drei Zitate, eins war ein defekter Link. ❌
- Claude Sonnet 4: Lesbare Quellen, aber nicht überprüfbar. ❌
- Gemini Ultra: Artikel mit falschen Daten zitiert. ❌
- Perplexity: Gültige URL und Journalreferenz geliefert. ✅✅

Punkte:
GPT-5: 0 | Claude Sonnet 4: 0 | Gemini: 0 | Perplexity: 2
Ergebnisse des LLM-Halluzinationstests: Auf welche Modelle können Sie sich verlassen?
Die Halluzinationsraten variieren stark zwischen Sprachmodellen – einige sind überraschend genau, während andere weiterhin Schwierigkeiten mit Fakten haben.
Laden Sie die Ergebnisse des LLM-Halluzinationstests im PDF-Format herunter, um diese wichtige Übersicht für Ihre zukünftigen KI-Bewertungen griffbereit zu haben!
Welche LLMs haben sich von 2024 bis 2025 verbessert oder verschlechtert? [Branchenanalyse]
Während mein 10-Prompt-Test praxisnahe Einblicke liefert, wollen wir sehen, wie sich die KI-Branche insgesamt bei standardisierten Benchmarks geschlagen hat. Die Vectara-Halluzinations-Bewertungsrangliste liefert eine Analyse der faktischen Konsistenz von LLMs mithilfe ihres Hughes Halluzinationsbewertungsmodells (HHEM).
| Modell | Halluzinationsrate (2024 → 2025) | Antwortrate (2024 → 2025) | Durchschn. Zusammenfassungslänge (2024 → 2025) |
|---|---|---|---|
| 01-AI Yi-1.5-34B-Chat | 3.0% → 3.7% ⬇️ | 100.0% → 100.0% ➡️ | 83.7 → 83.7 ➡️ |
| 01-AI Yi-1.5-6B-Chat | 4.1% → 7.9% ⬇️ | 100.0% → 100.0% ➡️ | 98.9 → 98.9 ➡️ |
| 01-AI Yi-1.5-9B-Chat | 3.7% → 5.0% ⬇️ | 100.0% → 100.0% ➡️ | 85.7 → 85.7 ➡️ |
| Snowflake Arctic | 2.6% → 2.98% ⬇️ | 100.0% → 100.0% ➡️ | 68.7 → 68.7 ➡️ |
| GPT 3.5 Turbo | 3.5% → 1.93% ⬆️ | 99.6% → 99.6% ➡️ | 84.1 → 84.1 ➡️ |
| GPT 4 | 3.0% → 1.81% ⬆️ | 100.0% → 100.0% ➡️ | 81.1 → 81.1 ➡️ |
| GPT 4 Turbo | 2.5% → 1.69% ⬆️ | 100.0% → 100.0% ➡️ | 86.2 → 86.2 ➡️ |
| GPT 4o | 3.7% → 1.49% ⬆️ | 100.0% → 100.0% ➡️ | 77.8 → 77.8 ➡️ |
| GPT 4o mini | 3.1% → 1.69% ⬆️ | 100.0% → 100.0% ➡️ | 76.3 → 76.3 ➡️ |
| Microsoft Orca-2-13b | 3.2% → 2.49% ⬆️ | 100.0% → 100.0% ➡️ | 66.2 → 66.2 ➡️ |
| Microsoft Phi 2 | 8.5% → 6.67% ⬆️ | 91.5% → 91.5% ➡️ | 80.8 → 80.8 ➡️ |
| Microsoft Phi-3-mini-128k | 4.1% → 3.08% ⬆️ | 100.0% → 100.0% ➡️ | 60.1 → 60.1 ➡️ |
| Microsoft Phi-3-mini-4k | 5.1% → 3.98% ⬆️ | 100.0% → 100.0% ➡️ | 86.8 → 86.8 ➡️ |
| Microsoft WizardLM-2-8x22B | 5.0% → 11.74% ⬇️ | 99.9% → 99.9% ➡️ | 140.8 → 140.8 ➡️ |
| Databricks DBRX Instruct | 6.1% → 8.35% ⬇️ | 100.0% → 100.0% ➡️ | 85.9 → 85.9 ➡️ |
| Anthropic Claude 2 | 8.5% → 17.45% ⬇️ | 99.3% → 99.3% ➡️ | 87.5 → 87.5 ➡️ |
| Anthropic Claude 3 Opus | 7.4% → 10.09% ⬇️ | 95.5% → 95.5% ➡️ | 92.1 → 92.1 ➡️ |
| Anthropic Claude 3 Sonnet | 6.0% → 16.30% ⬇️ | 100.0% → 100.0% ➡️ | 108.5 → 108.5 ➡️ |
| Anthropic Claude 3.5 Sonnet | 6.7% → 8.6% ⬇️ | 100.0% → 100.0% ➡️ | 103.0 → 103.0 ➡️ |
| Apple OpenELM-3B-Instruct | 22.4% → 24.78% ⬇️ | 99.3% → 99.3% ➡️ | 47.2 → 47.2 ➡️ |
| Google Palm 2 | 8.6% → 14.08% ⬇️ | 99.8% → 99.8% ➡️ | 86.6 → 86.6 ➡️ |
| Google Palm 2 Chat | 10.0% → N/A | 100.0% → N/A | 66.2 → N/A |
| Google flan-t5-large | 15.8% → 18.29% ⬇️ | 99.3% → 99.3% ➡️ | 20.9 → 20.9 ➡️ |
| tiiuae falcon-7b-instruct | 16.2% → 29.92% ⬇️ | 90.0% → 90.0% ➡️ | 75.5 → 75.5 ➡️ |
Quelle: Hugging Face und Vectara
Die neuesten Daten vom Vectara Hallucination Evaluation Leaderboard zeichnen ein komplexeres Bild als in den Vorjahren:
Aktuelle Halluzinationslandschaft (2025):
- Bestes Modell: GPT-4o mit nur 1.5% Halluzinationsrate
- Größter Rückgang eines Hauptmodells: Claude 2 stieg von 8.5% → 17.5% (▲ +8.9%)
- Schockierendste Überraschung: Claude 3 Sonnet sprang von 6.0% → 16.3% (▲ +10.3%)
- Stärkste Verbesserung: GPT-3.5 Turbo reduzierte seine Rate von 3.5% → 1.9% (▼ -1.6%)
- Längste Zusammenfassungen: WizardLM-2-8x22B mit durchschnittlich 140.8 Wörtern
- Kürzeste Zusammenfassungen: Google Flan-T5-large mit nur 20.9 Wörtern
- Stabile Modelle: Snowflake Arctic und GPT-4 Turbo hielten Halluzinationsraten unter 3% bei gleichzeitigen 100% Antwortraten
- Gesamttendenz: Viele OpenAI-Modelle (GPT-4, GPT-4o, GPT-3.5 Turbo) verbesserten sich, während die Claude-Serie von Anthropic die stärksten Rückgänge zeigte
Basierend auf meinen Testergebnissen oben hat Perplexity jedoch außergewöhnlich gut mit Echtzeit-Zitationsgenauigkeit abgeschnitten, was es ideal für Faktenprüfungsaufgaben macht.
Welches LLM verzeichnete die größten Veränderungen bei Halluzinationen von 2024 bis 2025?

Welche LLMs sind die klaren Gewinner und Verlierer?
Übertragung auf die Praxis: Ein Modell mit 1,5% Halluzinationsrate (wie GPT-4o) liefert in etwa 1 von 67 Antworten sachlich falsche Antworten. Zum Vergleich: Claude 3 Sonnet mit 16,3% halluziniert in 1 von 6 Antworten. Das ist eine kritische Lücke in der professionellen Zuverlässigkeit. Teams mit Priorität auf Genauigkeit sollten bewährte LLMs mit niedriger Halluzinationsrate wählen – OpenAIs GPT-4o oder Snowflake Arctic –, denn OpenAIs stetige Fortschritte deuten auf stärkeres Training und bessere Ausrichtung hin, während Anthropics Claude-Modelle Instabilität zeigen, die faktenkritische Workflows unterminieren kann.
Wichtigste Erkenntnisse:
Wie schnitten die LLM-Modellfamilien bei den Halluzinationstrends ab?

Halluzinationsrate:
| Modell | Halluzinationsrate (2024 → 2025) | Trend / Hinweise |
|---|---|---|
| OpenAI GPT-4 / 4 Turbo / 4o | 3,0–3,7% → 1,5–1,8% ⬇️ | Klare Gewinner; Halluzinationen nahezu halbiert |
| GPT-3.5 Turbo | 3,5% → 1,9% ⬇️ | Deutliche Verbesserung bei hoher Stabilität |
| Snowflake Arctic | 2,6% → 3,0% ➡️ | Stabil, eine der niedrigsten Raten insgesamt |
| Microsoft Orca-2-13B | 3,2% → 2,5% ⬇️ | Leichte Verbesserung bei gleichzeitigen 100% Antworten |
| Microsoft Phi-2 | 8,5% → 6,7% ⬇️ | Weniger Halluzinationen, aber weiterhin Mittelklasse |
| Microsoft Phi-3-mini (128k & 4k) | 4–5% → ~3% ⬇️ | Verbesserte Zuverlässigkeit in beiden Versionen |
| Anthropic Claude 2 | 8,5% → 17,5% ⬆️ | Halluzinationen fast verdoppelt, starker Rückgang |
| Claude 3 Opus | 7,4% → 10,1% ⬆️ | Erhebliche Verschlechterung |
| Claude 3 Sonnet | 6,0% → 16,3% ⬆️ | Stärkster Anstieg unter den großen Modellen |
| Claude 3.5 Sonnet | 6,7% → 8,6% ⬆️ | Moderater Anstieg; geringere Stabilität |
| Apple OpenELM-3B | 22,4% → 24,8% ⬆️ | Unteres Segment mit den höchsten Halluzinationsraten |
| tiiuae Falcon-7B-Instruct | 16,2% → 29,9% ⬆️ | In die unzuverlässigste Gruppe abgerutscht |
| Databricks DBRX | 6,1% → 8,4% ⬆️ | Konstanter Rückgang, fällt hinter Wettbewerber zurück |
| Microsoft WizardLM-2-8x22B | 5,0% → 11,7% ⬆️ | Fehlerrate verdoppelt, trotz sehr langer Zusammenfassungen |
Antwortrate:
| Modell | Antwortrate | Trend / Hinweise |
|---|---|---|
| OpenAI GPT-4 Familie (4, Turbo, 4o, 4o mini) | 100% ➡️ | Konsequent perfekte Reaktionsfähigkeit |
| GPT-3.5 Turbo | 99,6% ➡️ | Hohe Zuverlässigkeit, nahezu perfekt |
| Snowflake Arctic | 100% ➡️ | Verweigert nie eine Antwort |
| Microsoft Orca-2-13B | 100% ⬆️ | Auf volle Reaktionsfähigkeit verbessert |
| Microsoft Phi-2 | 91,5% ➡️ | Noch unter den Top-Modellen, Verbesserungsbedarf |
| Claude-Modelle (2, 3, 3.5) | ~100% ➡️ | Voll reaktionsfähig, aber anfällig für Halluzinationen |
| Apple OpenELM-3B | 99,3% ➡️ | Hohe Antwortrate trotz geringer Genauigkeit |
| tiiuae Falcon-7B | 90% ➡️ | Niedrigere Antwortrate im Vergleich zu großen Modellen |
Durchschnittliche Zusammenfassungslänge:
| Modell | Durchschn. Zusammenfassungslänge (2025) | Trend / Hinweise |
|---|---|---|
| Claude 3 Sonnet | 108,5 | Am wortreichsten unter den großen Modellen |
| Claude 3.5 Sonnet | 103 | Konstant lange Antworten |
| WizardLM-2-8x22B | 140,8 | Insgesamt die längsten Ausgaben |
| OpenAI GPT-4 Turbo | 86,2 | Ausgewogen zwischen Klarheit und Detail |
| OpenAI GPT-4o | 77,8 | Knapp, aber informativ |
| Snowflake Arctic | 68,7 | Effizient und auf den Punkt |
| Flan-T5-large | 20,9 | Kürzeste Zusammenfassungen, minimale Details |
| Apple OpenELM-3B | 47,2 | Kurze, einfache Zusammenfassungen |
| tiiuae Falcon-7B | 75,5 | Mittlere Ausführlichkeit |
Wie gezeigt, variierten die Halluzinationstrends stark zwischen den Anbietern. OpenAI-Modelle verbesserten sich nicht nur am stärksten, sondern hielten auch fehlerfreie Antwortraten aufrecht.
Im Gegensatz dazu verzeichneten Anthropics Claude-Reihe und Falcon-7B starke Einbrüche, was Fragen zur Zuverlässigkeit aufwirft. Das zeigt: Die Wahl des richtigen LLMs hängt nicht nur von der Leistungsfähigkeit ab – sondern von Stabilität und Vertrauenswürdigkeit im realen Einsatz.
Wie teste ich in Echtzeit, ob ein LLM wie ChatGPT oder Claude halluziniert?
Halluzinationen bei großen Sprachmodellen wie ChatGPT, Claude oder Gemini in Echtzeit zu erkennen, ist im Jahr 2026 kein Ratespiel mehr. Dank intelligenterer Tools und transparenter Ausgaben können Sie KI-generierte Inhalte sofort validieren. So geht’s:

1. Stellen Sie eine faktenbasierte Frage
Beispiel: „Wer gewann den Nobelpreis für Physik im Jahr 2024?“
(Konzentrieren Sie sich auf überprüfbare Fragen anstelle von offenen Prompts.)
2. Prüfen Sie die Quellenangabe
- ChatGPT (Pro) zitiert standardmäßig möglicherweise nicht.
- Claude verlinkt oft Quellen, wenn danach gefragt wird.
- Perplexity zitiert URLs automatisch direkt im Text.
3. Verwenden Sie ein Live-Faktenprüfer-Tool
- 🔍 GPT-Checker: Hebt Behauptungen hervor und überprüft sie automatisch mit Suchergebnissen.
- 🛡️ Promptfoo: Prüft Konsistenz und Wahrheitsgehalt von Prompts über verschiedene Modelle hinweg.
- 📊 Giskard AI: Kennzeichnet halluzinierte Ausgaben in Unternehmens-Pipelines.
4. Gegenprüfung über vertrauenswürdige Quellen
Kopieren Sie die Antwort der KI in eine Suchmaschine, Wikipedia oder wissenschaftliche Datenbank (z. B. PubMed, JSTOR) zur sofortigen Verifizierung.
5. Verwenden Sie Prompt Engineering zur Erkennung schwacher Aussagen
Fragen Sie: „Wie sicher bist du dir bei dieser Antwort?“ oder „Was ist deine Quelle?“
Die meisten LLMs werden dann entweder zurückrudern oder Unsicherheit zeigen, wenn die Antwort erfunden ist.
LLM-Tipp: Modelle neigen zu mehr Halluzinationen bei Nischenthemen, aktuellen Ereignissen oder wenig zitierten Entitäten.
Warum LLM-Halluzinationen wichtiger sind, als du denkst
Während meiner Arbeit bei AllAboutAI habe ich aus erster Hand gesehen, wie selbst eine kleine Halluzination eines KI-Modells Nutzer in die Irre führen, das Verständnis verzerren oder die Glaubwürdigkeit beschädigen kann. Diese Fehler bleiben nicht nur auf dem Bildschirm – sie beeinflussen echte Entscheidungen. Hier sind drei große Auswirkungen, die mir aufgefallen sind.
- Vertrauen wird sofort zerstört: Wenn Nutzer bemerken, dass ein Modell Fakten erfindet oder gefälschte Quellen zitiert, verlieren sie oft sofort das Vertrauen. Ich habe erlebt, wie Leser Plattformen nach nur einer falschen KI-Antwort verlassen haben.
- Fehlinformationen verbreiten sich schnell: Eine halluzinierte Information kann – besonders online – sich schnell zu weit verbreiteten Irrtümern entwickeln. Bei AllAboutAI mussten wir Inhalte doppelt prüfen, bevor wir sie veröffentlichten, um genau das zu verhindern.
- Professionelle Anwendungen werden untergraben: In Bereichen wie Recht, Gesundheit und Finanzen kann selbst ein halluziniertes Detail echten Schaden anrichten. Ich habe an Projekten gearbeitet, bei denen es entscheidend war, jeden Satz zu überprüfen, um Compliance-Risiken zu vermeiden.
Welches KI-Modell sollten Fachleute im 2026 für die genauesten Ergebnisse verwenden?
Auf Basis der Kombination aus meinen Praxistests und den umfassenden Vectara-Benchmark-Daten folgt, wie Sie das richtige Modell für Ihre Anforderungen wählen:

Welche LLMs eignen sich am besten für risikoreiche Anwendungsfälle, die maximale Faktengenauigkeit erfordern?
Diese Modelle bieten die niedrigsten Halluzinationsraten und sind ideal für Recht, Gesundheitswesen, Finanzen und regulierte Bereiche.
| Modell | Halluzinationsrate (2025) | Empfehlung |
|---|---|---|
| GPT-4o | ~1,5% | Top-Empfehlung |
| GPT-4 Turbo | ~1,7% | Zweitbeste Wahl |
| GPT-4 | ~1,8% | Ebenfalls in Betracht ziehen |
| Snowflake Arctic | ~3,0% | Ebenfalls in Betracht ziehen |
| Qwen2-72B-Instruct | ~4,7% | Ebenfalls in Betracht ziehen |
Welche LLMs leisten am meisten für Business-Content-Erstellung und analytische Aufgaben?
Diese Modelle glänzen bei strukturiertem Schreiben, detaillierten Reports und Executive-Analysen.
| Modell | Halluzinationsrate (2025) | Empfehlung |
|---|---|---|
| Claude 3.5 Sonnet | ~8,6% | Top-Empfehlung (für Ton & Struktur) |
| GPT-3.5 Turbo | ~1,9% | Budget-Option |
| Yi-1.5-6B-Chat | ~7,9% | Ebenfalls in Betracht ziehen |
| DBRX Instruct | ~8,35% | Ebenfalls in Betracht ziehen |
| LLaMA 2 13B | ~10,47% | Ebenfalls in Betracht ziehen (auf Drift achten) |
Welche LLMs sind für die Echtzeit-Informationsbeschaffung und Faktenprüfung am zuverlässigsten?
Nutzen Sie diese, wenn aktuelle oder zeitkritische Informationen entscheidend sind (News, Marktdaten, Entscheidungen in Echtzeit).
| Modell | Halluzinationsrate (2025) | Empfehlung |
|---|---|---|
| Perplexity (Web) | — | Top-Empfehlung (Live-Zitate) |
| Claude 3.5 Sonnet + Web | ~8,6% | Zweitbeste Wahl |
| Cohere Chat | ~7,5% (neuester vergleichbarer Wert) | Ebenfalls in Betracht ziehen |
Welche LLMs zeigen hohe Halluzinationsraten und sollten in faktenkritischen Szenarien gemieden werden?
Diese Modelle zeigen hohe Halluzinationen oder unzuverlässige Faktenausgaben und sollten in sensiblen oder genauigkeitskritischen Szenarien nicht verwendet werden.
| Modell | Halluzinationsrate (2025) | Empfehlung |
|---|---|---|
| Apple OpenELM-3B | ~24,78% | Vermeiden |
| Mixtral 8x7B | ~20,1% | Vermeiden |
| Claude 3 Sonnet | ~16,3% | Vermeiden (im Abwärtstrend) |
| Claude 3 Opus | ~10,09% | Vermeiden |
| Gemini 1.5 Pro | ~6,6% | Vorsicht (nimmt ab) |
| Mistral 7B v0.1 | ~9,5% | Vermeiden |
Profi-Tipp von AllAboutAI:
Die Daten zeigen, dass die Modellversion enorm wichtig ist. Neuere OpenAI-Modelle übertreffen ihre Vorgänger konsequent. Gib bei kritischer Zuverlässigkeit immer die exakte Modellversion an.
Was sagen die Zahlen über KI-Halluzinationen aus?
Um das Ausmaß des Problems wirklich zu verstehen, müssen wir uns die zugrunde liegenden Daten ansehen. Diese Statistiken zeigen, wie häufig Halluzinationen bei einigen der fortschrittlichsten LLMs auftreten – und was passiert, wenn man Gegenmaßnahmen ergreift.
- Allgemeine Halluzinationsraten: Ohne Gegenmaßnahmen lagen die Halluzinationsraten in medizinischen Fallstudien bei 64,1 % bei langen Fällen und 67,6 % bei kurzen Fällen. Mit speziellen Mitigation-Prompts sanken die Raten auf 43,1 % bzw. 45,3 %. (Medrxiv)
- Halluzinationsrate bei ChatGPT: ChatGPT erzeugt in etwa 19,5 % seiner Antworten mit halluzinierten Inhalten – oft zu Themen wie Sprache, Klima und Technologie, wobei es nicht überprüfbare Behauptungen aufstellt. (Bericht)
- Halluzinationsrate von Llama-2: In einem Experiment mit der InterrogateLLM-Methode zeigte Llama-2 Halluzinationsraten von bis zu 87 % – damit war es eines der anfälligsten Modelle in diesem Test. (Bericht)
Was verursacht überhaupt Halluzinationen bei KI?

Zu verstehen, warum LLMs halluzinieren, hilft uns, sie klüger zu nutzen. Diese Probleme sind keine einfachen Bugs – sie sind Teil der Funktionsweise dieser Modelle. Hier sind fünf Hauptgründe für KI-Halluzinationen:
- LLMs basieren auf vergangenem Wissen und haben keinen Live-Zugriff auf das Internet (außer speziell dafür ausgelegt), was dazu führt, dass sie neue Themen raten müssen.
- KI-Modelle generieren Text, der „richtig klingt“ – ohne immer zu prüfen, ob er auch inhaltlich korrekt ist.
- Selbst bei Unsicherheit formulieren Modelle Antworten oft mit großer Sicherheit, was Halluzinationen schwer erkennbar macht.
- Wenn Prompts unklar oder zu komplex sind, füllen LLMs die Lücken mit erfundenen Inhalten, um hilfreich zu erscheinen.
- Wurden Modelle mit veralteten, voreingenommenen oder falschen Quellen trainiert, können diese Fehler in ihren Antworten auftauchen.
Wie kann man Halluzinationen bei LLMs reduzieren?
Während meiner Arbeit bei AllAboutAI habe ich unzählige KI-generierte Antworten getestet und analysiert. Dabei habe ich festgestellt, dass folgende Strategien besonders wirksam sind, um Halluzinationen zu reduzieren und die Genauigkeit zu erhöhen.
- Quellen aktiv anfordern: Prompts wie „Bitte zitiere deine Quelle“ oder „Füge einen Link hinzu“ animieren das Modell dazu, nachvollziehbare Informationen einzubauen.
- Komplexe Fragen aufteilen: Lange oder mehrschichtige Prompts in kleinere, klarere Schritte zu zerlegen, hilft dem Modell, fokussiert zu bleiben und weniger zu erfinden.
- Nutzung von Retrieval-Augmented-Modellen: Tools wie Perplexity oder ChatGPT mit Webzugriff liefern faktenbasierte Antworten, da sie auf Echtzeitdaten zugreifen können.
- Vergleich zwischen Modellen: Den gleichen Prompt in verschiedenen LLMs testen und vergleichen zeigt oft Inkonsistenzen oder Halluzinationen, die einem allein entgehen würden.
- Prompt überarbeiten und präzisieren: Wenn sich eine Antwort ungenau anfühlt, hilft es meist, den Prompt klarer oder mit mehr Kontext zu formulieren.
Was sind die Vor- und Nachteile von Halluzinations-Erkennungstools für LLMs im Jahr 2026?
Mit dem Aufkommen KI-generierter Inhalte sind Tools zur Erkennung von Halluzinationen im Jahr 2026 unverzichtbar geworden – vor allem für Journalisten, Forscher und Publisher, die auf faktenbasierte Inhalte angewiesen sind.
Tools wie TruthfulQA, GPTZero, FactScore, Googles Retrieval-Augmented Evaluation (RAE) und RealityCheck führen beim Erkennen von Halluzinationen aktuell den Markt an.
Pros
- Hilft beim Faktencheck von KI-Inhalten vor der Veröffentlichung.
- Viele Tools bieten Browser-Erweiterungen oder API-Schnittstellen.
- Testet GPT-5, Claude, Gemini etc. in einer Oberfläche.
- Strenge oder lockere Prüfung einstellbar.
Cons
- Markiert manchmal technisch korrekte, aber unbelegte Infos.
- Erkennt Halluzinationen bei kreativen Prompts oft nicht.
- Business-Versionen erfordern teure Lizenzen.
- Zu strenge Filter können kreative Inhalte einschränken.
Können LLMs medizinische Fehlinformationen bewältigen? Eine reale Fallstudie
Untersucht wurde, wie häufig LLMs erfundene oder falsche klinische Details (Halluzinationen) erzeugen, wenn sie mit absichtlich eingebetteten Fehlinformationen konfrontiert werden – sowie, wie effektiv Gegenmaßnahmen wirken.
Methodik:
- Forschende entwickelten 300 klinische Vignetten, validiert durch Ärzte, wobei jede ein absichtlich erfundenes medizinisches Detail enthielt – etwa ein gefälschtes Laborergebnis, eine erfundene Krankheit oder einen nicht existierenden radiologischen Begriff.
- Jede Vignette lag in zwei Formaten vor: einer kurzen Version (50–60 Wörter) und einer langen Version (90–100 Wörter), um den Einfluss der Prompt-Länge zu untersuchen.
- Sechs LLMs wurden unter drei unterschiedlichen Testbedingungen geprüft: Standardeinstellung, Einsatz eines Mitigationsprompts zur Verringerung von Halluzinationen, sowie Temperatur auf Null, um Zufälligkeit auszuschließen.
- Insgesamt wurden 5.400 Modellausgaben erzeugt und analysiert.
- Jeder Fall, in dem das Modell die falsche Information weiterentwickelte, wurde als Halluzination klassifiziert.
Zentrale Erkenntnisse:
- Die Halluzinationsraten lagen zwischen 50 % und 82,7 % – ein deutlicher Hinweis auf hohe Anfälligkeit für adversariale Halluzinationsangriffe.
- Der Einsatz eines Mitigationsprompts reduzierte Halluzinationen deutlich – von durchschnittlich 66 % auf 44 % (p < 0.001).
- Die Temperatur auf Null zu setzen reduzierte Halluzinationen nicht signifikant – Zufälligkeit allein ist also nicht die Ursache.
- Kurze Vignetten führten zu etwas mehr Halluzinationen (~67,6 %) als lange (~64,1 %), jedoch meist ohne statistische Signifikanz.
- GPT-4o schnitt am besten ab – mit Mitigation sank die Rate von 53 % auf 23 %. Open-Source-Modelle wie Distilled-DeepSeek-Llama halluzinierten in über 80 % der Fälle (Standard-Einstellungen).
- In qualitativen Tests zu Gesundheitsaussagen vermieden die meisten Modelle klare Halluzinationen – einige gaben jedoch irreführende oder unbegründete Erklärungen für falsche Aussagen.
Quelle: Medrxiv
Was denkt Reddit? Echte Nutzer über LLM-Halluzinationen
Reddit-Nutzer hatten viel zu sagen zur Halluzinationsrate von LLMs und zum faktenbasiertesten Modell. Viele verwiesen auf OpenAI’s o1 oder GPT-4o als die verlässlichsten – insbesondere mit Internetzugang. Perplexity wurde ebenfalls gelobt für seine Echtzeit-Zitate, die Nutzer überprüfen konnten.
Dennoch waren sich die meisten einig: man sollte alles doppelt prüfen, unabhängig vom Modell. Einige Nutzer fanden, dass die Aufforderung zum Faktencheck oder zur Recherche die Ergebnisse verbesserte – besonders bei o1. Andere hatten den Eindruck, dass Claude und Gemini oft daneben lagen, es sei denn, das Thema war Codierung oder sehr einfach.
Quelle: Reddit-Thread
Was sagen Experten über LLM-Halluzinationen?
Um diese Diskussion zu vertiefen, habe ich mir Expertenmeinungen dazu angesehen, welches LLM am häufigsten halluziniert. Ihre Einblicke erklären, warum einige Modelle zuverlässiger sind als andere – und was Nutzer beachten sollten.
1. GPT-4 zeigt die niedrigste Halluzinationsrate bei Zusammenfassungen
Laut aibusiness.com und dem Vectara-Benchmark lag GPT-4 bei nur 3 % Halluzination – das beste Ergebnis aller getesteten Modelle. Selbst GPT-3.5 schnitt solide ab (~3,5 %), während Claude 2 und LLaMA-2 70B zwischen 5 % und 8,5 % lagen.
2. Claude 3 und Gemini glänzen durch Ablehnung bei Unsicherheit
Bei offenen Fragen fand eine Cornell- und AI2-Studie, dass GPT-4 am faktentreuesten war. Doch Claude 3.5 (Haiku) reduzierte Halluzinationen deutlich, indem es unsichere Prompts oft ablehnte.
Auch Gemini überzeugte im FACTS-Benchmark von DeepMind – es erreichte 83–86 % faktische Genauigkeit (venturebeat.com).
3. Denkaufgaben entlarven kleine Modelle – GPT-4 & Claude führen
In logikbasierten Tests wie GSM8K zeigt der Stanford AI Index, dass GPT-4 92–97 % erreicht – mit kaum erfundenen Zwischenschritten. Claude 3 lag dicht dahinter und übertraf GPT-4 gelegentlich sogar beim mehrstufigen Denken.
Open-Source-Modelle wie LLaMA-2 und Mistral (v. a. 7B-Versionen) fügten dagegen häufig falsche logische Schritte hinzu oder rieten – mit Halluzinationsraten über 9 % (arxiv.org).
Zukunftsausblick: Werden LLMs jemals aufhören zu halluzinieren?

Das Rennen um zuverlässigere KI wird schneller – und die Kontrolle über Halluzinationen steht im Mittelpunkt. So könnte die Zukunft aussehen:
- LLMs werden stärker auf Echtzeitdaten setzen
Modelle mit Live-Datenzugriff oder Internetverbindung werden zum Standard, um veraltete oder erfundene Inhalte zu minimieren. - Faktenprüfende Schichten werden in KI integriert
Zukünftige LLMs werden voraussichtlich eingebaute Verifizierungsmechanismen enthalten, die Aussagen vor der Ausgabe prüfen. - Offene Benchmarks zur Halluzinationsüberwachung entstehen
Transparente, öffentliche Benchmarks werden verwendet, um Halluzinationsraten zu bewerten – ähnlich wie heute bei Genauigkeit oder Geschwindigkeit.
Aus meiner Arbeit bei AllAboutAI weiß ich, wie wichtig es ist, dass KI-Modelle überprüfbar und verantwortlich sind. Immer mehr Projekte verlangen Ergebnisse, die ohne manuelle Nachprüfung vertrauenswürdig sind. Ich glaube, die Zukunft gehört Modellen, die Inhalte nicht nur erzeugen, sondern auch in Echtzeit begründen und belegen können.
Dies zeigt auch ein tiefer liegendes Problem hinter der aktuellen KI-Blase. Viele Tools versprechen „Genauigkeit“ und „Automatisierung“, ohne echte Mechanismen für Nachweis oder Validierung anzubieten. Wenn KI-Systeme ihre eigenen Ergebnisse nicht erklären oder überprüfen können, wächst der Hype schneller als die Zuverlässigkeit.
Lies weitere informative Anleitungen von AllAboutAI
- Wie genau sind astrologische Vorhersagen von KI?: KI-Astrologie klingt spannend – aber ist sie wirklich vertrauenswürdig?
- ChatGPT o3 Pro vs Claude 4 vs Gemini 2.5 Pro: Kampf der KI-Giganten für Alltägliche Brillanz
- Dopaminschleifen und LLMs: Aufmerksamkeit kapern, Denken neu erfinden, KI-Sucht antreiben
- Beste KI-Filme: Atemberaubende Technikgeschichten, die Herzen berühren
- KI-Karrieren: Zukunftssichere Jobs angetrieben durch intelligente Innovation
FAQs
Was sind Halluzinationen in LLMs?
Wie hoch ist die Halluzinationsrate eines LLMs?
Welche Halluzination ist am häufigsten?
Halluziniert Perplexity weniger, weil es Quellen angibt?
Wie schneidet GPT-4.5 im Vergleich zu anderen LLMs bei Halluzinationen ab?
Fazit
Nach Durchführung meines 10-Prompt-Tests und der Analyse der umfassenden Vectara Branchen-Benchmarks 2025 ist das Ergebnis eindeutig: Die Zuverlässigkeit von KI-Modellen ist mittlerweile stark polarisiert.
Aus meinen Praxistests geht hervor, dass Perplexity in realen Szenarien mit überlegener Zitiergenauigkeit dominiert hat, während GPT-5 eine starke technische Leistung zeigte. Die Schwere von Halluzinationen bei LLMs hängt stark von der jeweiligen Aufgabe ab – insgesamt neigen kleinere oder nicht abgestimmte Modelle jedoch deutlich häufiger zu Halluzinationen.
Welchem Modell vertrauen Sie bei Fakten am meisten? Lassen Sie es mich in den Kommentaren wissen!