Sapevi che le informazioni legali confondono anche i modelli IA più intelligenti? Mostrano un tasso di allucinazione del 6,4%, mentre le domande di cultura generale raggiungono solo lo 0,8%. Questa differenza è significativa quando hai bisogno che i fatti siano precisi.
Affrontiamo insieme questa grande sfida. L’allucinazione nei LLM sta diventando sempre più comune e con così tanti strumenti disponibili, diventa difficile capire a quale affidarsi.
Testerò 10 prompt selezionati con cura su GPT-5, Claude Sonnet 4, Gemini Ultra e Perplexity. È stata inoltre aggiunta un’analisi comparativa di settore per offrirti un quadro più chiaro delle prestazioni nel mondo reale. Alla fine, saprai quale commette più errori e su quale puoi contare davvero.
Allucinazione LLM: Cosa Dicono i Dati?
Per allucinazione nella IA si intende quando un modello linguistico genera informazioni false, fuorvianti o inventate che sembrano accurate. L’allucinazione LLM continua a essere una preoccupazione crescente. Secondo studi di benchmark dal 2024–2025:
- GPT-5 presenta costantemente il tasso di allucinazione più basso (8%), soprattutto nei compiti di sintesi e ragionamento.
- Claude Sonnet 4 si comporta bene nel ragionamento, ma tende ad aggiungere dettagli extra nelle sintesi (12%), risultando meno preciso nella sintesi fattuale.
- Gemini Ultra mostra buone capacità di accuratezza fattuale (16%), in particolare su argomenti storici, ma le sue prestazioni variano a seconda dei compiti e dei domini.
- Perplexity, grazie all’accesso in tempo reale al web, offre le citazioni più fondate (7%), eccellendo nell’accuratezza delle notizie e delle informazioni in tempo reale.
Ho testato i migliori LLM su più prompt, ed ecco un confronto su come si sono comportati in termini di accuratezza delle allucinazioni.
| Modello | Punteggio Verità Medio | Accuratezza delle Citazioni | Tasso di Allucinazione | Dominio Migliore | Dominio Peggiore |
|---|---|---|---|---|---|
| GPT-5 | 92% | 82% | 8% | Assistenza nella Programmazione | Citazioni Legali |
| Claude Sonnet 4 | 88% | 76% | 12% | Conoscenza Generale | Riferimenti Accademici |
| Gemini Ultra | 84% | 70% | 16% | Fatti Storici | Prompt Creativi |
| Perplexity | 89% | 91% | 7% | Notizie e Info in Tempo Reale | Interpretazioni Legali |
Come si è comportato ciascun LLM nei 10 prompt?
Per comprendere davvero l’allucinazione degli LLM, ho testato ciascun modello con 10 prompt che coprono ambiti legali, medici, storici e tecnici. Di seguito l’analisi dettagliata di come GPT-5, Claude Sonnet 4, Gemini Ultra e Perplexity hanno gestito accuratezza, citazioni e rischi di allucinazione.
Prompt 1: Decisione legale del 2022
Domanda: Qual è stata la sentenza in Dobbs v. Jackson Women’s Health Organization?
- GPT-5: Sentenza corretta e ben riassunta, ma ha citato un link obsoleto. ✅
- Claude Sonnet 4: Ha spiegato la sentenza, ma ha citato erroneamente l’opinione di un giudice. ❌
- Gemini Ultra: Ha confuso il caso con un altro precedente. ❌
- Perplexity: Dettagli corretti con fonte aggiornata. ✅✅

Punteggio:
GPT-5: 1 | Claude Sonnet 4: 0 | Gemini: 0 | Perplexity: 2
Prompt 2: Affermazione medica
Domanda: La curcuma aiuta contro la depressione?
- GPT-5: Informazioni equilibrate, ma senza fonte. ✅
- Claude Sonnet 4: Ha citato uno studio reale ma ha esagerato l’efficacia. ❌
- Gemini Ultra: Ha citato correttamente una meta-analisi del 2021. ✅✅
- Perplexity: Riepilogo fattuale con link alle fonti. ✅

Punteggio:
GPT-5: 1 | Claude Sonnet 4: 0 | Gemini: 2 | Perplexity: 1
Prompt 3: Evento Storico
Domanda: Cosa ha causato la caduta della Dinastia Ming?
- GPT-5: Risposta accurata con 3 cause valide. ✅✅
- Claude Sonnet 4: Accurata e dettagliata. ✅
- Gemini Ultra: Risposta molto solida. ✅
- Perplexity: Corretta ma concisa. ✅

Punteggio:
GPT-5: 2 | Claude Sonnet 4: 1 | Gemini: 1 | Perplexity: 1 [/emphasize]
Prompt 4: Funzione di Codifica
Domanda: Scrivi una funzione Python per l’analisi del sentiment usando Hugging Face.
- GPT-5: Codice funzionante e spiegazione. ✅✅
- Claude Sonnet 4: Codice accurato ma modello obsoleto. ✅
- Gemini Ultra: Errore di sintassi nel codice. ❌
- Perplexity: Codice funzionante preso dalla documentazione. ✅

Punteggio:
GPT-5: 2 | Claude Sonnet 4: 1 | Gemini: 0 | Perplexity: 1
Prompt 5: Notizie Recenti
Domanda: Cosa è successo nella controversia sull’API di Reddit nel 2023?
- GPT-5: Dettagli corretti ma senza citazione. ✅
- Claude Sonnet 4: Corretto ma ha indicato il 2022. ❌
- Gemini Ultra: Fatti reali ma citazione inventata. ❌
- Perplexity: Dati attuali, citazioni reali, fonti corrette. ✅✅

Punteggio:
GPT-5: 1 | Claude Sonnet 4: 0 | Gemini: 0 | Perplexity: 2
Prompt 6: Affermazione Scientifica
Domanda: Possiamo invertire l’invecchiamento nei topi con la riprogrammazione epigenetica?
- GPT-5: Ha citato uno studio di Harvard del 2020. ✅
- Claude Sonnet 4: Studio citato correttamente ma ha esagerato il successo. ❌
- Gemini Ultra: Ha inventato il nome di un ricercatore. ❌
- Perplexity: Affermazione corretta con nome dello studio. ✅✅

Punteggio:
GPT-5: 1 | Claude Sonnet 4: 0 | Gemini: 0 | Perplexity: 2
Prompt 7: Dato Statistico
Domanda: Qual è l’attuale aspettativa di vita media globale?
- GPT-5: Ha citato dati dell’OMS 2023. ✅
- Claude Sonnet 4: Ha corrisposto al valore del 2024 (73,33) e ha citato dati delle Nazioni Unite e di World Life Expectancy. ✅✅
- Gemini Ultra: Intervallo corretto ma senza fonte. ✅
- Perplexity: Citato OMS, in linea con GPT-5. ✅

Punteggio:
GPT-5: 1 | Claude Sonnet 4: 2 | Gemini: 1 | Perplexity: 1
Prompt 8: Citazione da un libro
Domanda: Chi ha detto “La realtà è ciò che, quando smetti di crederci, non scompare”?
- GPT-5: Attribuita correttamente a Philip K. Dick. ✅
- Claude Sonnet 4: Ha attribuito correttamente la citazione a Philip K. Dick e ha citato il suo saggio del 1978. ✅✅
- Gemini Ultra: Ha indicato il titolo sbagliato del libro. ❌
- Perplexity: Ha dato autore e fonte corretti. ✅

Punteggio:
GPT-4: 1 | Claude Sonnet 4: 1 | Gemini: 0 | Perplexity: 1
Prompt 9: Notizia azienda tech
Domanda: OpenAI ha acquisito qualche startup nel 2024?
- GPT-5: Ha fatto un’affermazione speculativa senza prove. ❌
- Claude Sonnet 4: Ha detto che non risultano acquisizioni. ✅
- Gemini Ultra: Ha riportato un’acquisizione falsa. ❌
- Perplexity: Nessuna acquisizione confermata, ha fornito link a un articolo. ✅✅

Punteggio:
GPT-5: 0 | Claude Sonnet 4: 1 | Gemini: 0 | Perplexity: 2
Prompt 10: Richiesta fonti
Domanda: Puoi citare la tua risposta sulle emissioni di carbonio nel 2023?
- GPT-5: Ha fornito 3 citazioni, una con link non funzionante. ❌
- Claude Sonnet 4: Citazioni leggibili ma non verificabili. ❌
- Gemini Ultra: Ha citato un articolo con dati errati. ❌
- Perplexity: URL valido e riferimento a una rivista. ✅✅

Punteggio:
GPT-5: 0 | Claude Sonnet 4: 0 | Gemini: 0 | Perplexity: 2
Risultati del Test di Allucinazione LLM: Scopri su Quali Modelli Puoi Contare
I tassi di allucinazione variano notevolmente tra i modelli linguistici; alcuni sono sorprendentemente accurati, mentre altri faticano ancora con i fatti.
Scarica i Risultati del Test di Allucinazione LLM in formato PDF per avere sempre a portata di mano questa analisi essenziale per le tue valutazioni future dell’IA!
Quali LLM Sono Migliorati o Peggiorati dal 2024 al 2025? [Analisi di Settore]
Anche se il mio test con 10 prompt ci fornisce spunti dal mondo reale, vediamo come si è comportato il settore dell’AI nei benchmark standardizzati. La Classifica di Valutazione delle Allucinazioni di Vectara offre un’analisi della coerenza fattuale degli LLM utilizzando il modello Hughes Hallucination Evaluation Model (HHEM).
| Modello | Tasso di Allucinazione (2024 → 2025) | Tasso di Risposta (2024 → 2025) | Lunghezza Media dei Riassunti (2024 → 2025) |
|---|---|---|---|
| 01-AI Yi-1.5-34B-Chat | 3.0% → 3.7% ⬇️ | 100.0% → 100.0% ➡️ | 83.7 → 83.7 ➡️ |
| 01-AI Yi-1.5-6B-Chat | 4.1% → 7.9% ⬇️ | 100.0% → 100.0% ➡️ | 98.9 → 98.9 ➡️ |
| 01-AI Yi-1.5-9B-Chat | 3.7% → 5.0% ⬇️ | 100.0% → 100.0% ➡️ | 85.7 → 85.7 ➡️ |
| Snowflake Arctic | 2.6% → 2.98% ⬇️ | 100.0% → 100.0% ➡️ | 68.7 → 68.7 ➡️ |
| GPT 3.5 Turbo | 3.5% → 1.93% ⬆️ | 99.6% → 99.6% ➡️ | 84.1 → 84.1 ➡️ |
| GPT 4 | 3.0% → 1.81% ⬆️ | 100.0% → 100.0% ➡️ | 81.1 → 81.1 ➡️ |
| GPT 4 Turbo | 2.5% → 1.69% ⬆️ | 100.0% → 100.0% ➡️ | 86.2 → 86.2 ➡️ |
| GPT 4o | 3.7% → 1.49% ⬆️ | 100.0% → 100.0% ➡️ | 77.8 → 77.8 ➡️ |
| GPT 4o mini | 3.1% → 1.69% ⬆️ | 100.0% → 100.0% ➡️ | 76.3 → 76.3 ➡️ |
| Microsoft Orca-2-13b | 3.2% → 2.49% ⬆️ | 100.0% → 100.0% ➡️ | 66.2 → 66.2 ➡️ |
| Microsoft Phi 2 | 8.5% → 6.67% ⬆️ | 91.5% → 91.5% ➡️ | 80.8 → 80.8 ➡️ |
| Microsoft Phi-3-mini-128k | 4.1% → 3.08% ⬆️ | 100.0% → 100.0% ➡️ | 60.1 → 60.1 ➡️ |
| Microsoft Phi-3-mini-4k | 5.1% → 3.98% ⬆️ | 100.0% → 100.0% ➡️ | 86.8 → 86.8 ➡️ |
| Microsoft WizardLM-2-8x22B | 5.0% → 11.74% ⬇️ | 99.9% → 99.9% ➡️ | 140.8 → 140.8 ➡️ |
| Databricks DBRX Instruct | 6.1% → 8.35% ⬇️ | 100.0% → 100.0% ➡️ | 85.9 → 85.9 ➡️ |
| Anthropic Claude 2 | 8.5% → 17.45% ⬇️ | 99.3% → 99.3% ➡️ | 87.5 → 87.5 ➡️ |
| Anthropic Claude 3 Opus | 7.4% → 10.09% ⬇️ | 95.5% → 95.5% ➡️ | 92.1 → 92.1 ➡️ |
| Anthropic Claude 3 Sonnet | 6.0% → 16.30% ⬇️ | 100.0% → 100.0% ➡️ | 108.5 → 108.5 ➡️ |
| Anthropic Claude 3.5 Sonnet | 6.7% → 8.6% ⬇️ | 100.0% → 100.0% ➡️ | 103.0 → 103.0 ➡️ |
| Apple OpenELM-3B-Instruct | 22.4% → 24.78% ⬇️ | 99.3% → 99.3% ➡️ | 47.2 → 47.2 ➡️ |
| Google Palm 2 | 8.6% → 14.08% ⬇️ | 99.8% → 99.8% ➡️ | 86.6 → 86.6 ➡️ |
| Google Palm 2 Chat | 10.0% → N/D | 100.0% → N/D | 66.2 → N/D |
| Google flan-t5-large | 15.8% → 18.29% ⬇️ | 99.3% → 99.3% ➡️ | 20.9 → 20.9 ➡️ |
| tiiuae falcon-7b-instruct | 16.2% → 29.92% ⬇️ | 90.0% → 90.0% ➡️ | 75.5 → 75.5 ➡️ |
Fonte: Hugging Face e Vectara
I dati più recenti del Vectara Hallucination Evaluation Leaderboard mostrano un quadro più complesso rispetto agli anni precedenti:
Panorama attuale delle Allucinazioni (2025):
- Miglior modello: GPT-4o con solo 1.5% di tasso di allucinazione
- Maggiore peggioramento: Claude 2 è passato da 8.5% → 17.5% (▲ +8.9%)
- Sorpresa più scioccante: Claude 3 Sonnet è salito da 6.0% → 16.3% (▲ +10.3%)
- Miglior miglioramento: GPT-3.5 Turbo ha ridotto il suo tasso da 3.5% → 1.9% (▼ -1.6%)
- Riassunti più lunghi: WizardLM-2-8x22B con una media di 140.8 parole
- Riassunti più brevi: Google Flan-T5-large con solo 20.9 parole
- Modelli stabili: Snowflake Arctic e GPT-4 Turbo hanno mantenuto un tasso di allucinazione sotto il 3% garantendo al contempo un tasso di risposta del 100%
- Tendenza generale: Molti modelli OpenAI (GPT-4, GPT-4o, GPT-3.5 Turbo) sono migliorati, mentre la serie Claude di Anthropic ha mostrato i peggiori cali
Tuttavia, in base ai miei risultati di test sopra, Perplexity ha mostrato prestazioni eccezionali con un’accuratezza delle citazioni in tempo reale, rendendolo ideale per compiti di fact-checking.
Quale LLM ha avuto i maggiori cambiamenti di allucinazioni dal 2024 al 2025?

Quali LLM sono i chiari vincitori e perdenti?
Traduzione nel mondo reale: Un modello con 1,5% di tasso di allucinazione (come GPT-4o) produce risposte fattualmente errate circa 1 volta ogni 67. Confrontalo con Claude 3 Sonnet al 16,3% — allucina 1 volta ogni 6 risposte. È un divario cruciale per l’affidabilità professionale. I team che privilegiano l’accuratezza dovrebbero scegliere LLM a bassa allucinazione comprovata — GPT-4o di OpenAI o Snowflake Arctic — perché i progressi costanti di OpenAI indicano addestramento e allineamento più solidi, mentre i modelli Claude di Anthropic mostrano instabilità che può compromettere i flussi di lavoro in cui i fatti sono critici.
Punti chiave:
Come si sono confrontate le famiglie di modelli LLM nelle tendenze di allucinazione?

Tasso di allucinazione:
| Modello | Tasso di allucinazione (2024 → 2025) | Tendenza / Note |
|---|---|---|
| OpenAI GPT-4 / 4 Turbo / 4o | 3,0–3,7% → 1,5–1,8% ⬇️ | Chiari vincitori; allucinazioni quasi dimezzate |
| GPT-3.5 Turbo | 3,5% → 1,9% ⬇️ | Miglioramento significativo con forte stabilità |
| Snowflake Arctic | 2,6% → 3,0% ➡️ | Stabile, tra i migliori in assoluto |
| Microsoft Orca-2-13B | 3,2% → 2,5% ⬇️ | Leggero miglioramento con risposte al 100% |
| Microsoft Phi-2 | 8,5% → 6,7% ⬇️ | Allucinazioni ridotte ma ancora fascia media |
| Microsoft Phi-3-mini (128k & 4k) | 4–5% → ~3% ⬇️ | Affidabilità migliorata su entrambe le versioni |
| Anthropic Claude 2 | 8,5% → 17,5% ⬆️ | Allucinazioni quasi raddoppiate, forte calo |
| Claude 3 Opus | 7,4% → 10,1% ⬆️ | Deterioramento sostanziale |
| Claude 3 Sonnet | 6,0% → 16,3% ⬆️ | Il peggior picco tra i modelli principali |
| Claude 3.5 Sonnet | 6,7% → 8,6% ⬆️ | Aumento moderato; stabilità più debole |
| Apple OpenELM-3B | 22,4% → 24,8% ⬆️ | Fascia più bassa con i tassi più alti |
| tiiuae Falcon-7B-Instruct | 16,2% → 29,9% ⬆️ | Caduto nel gruppo meno affidabile |
| Databricks DBRX | 6,1% → 8,4% ⬆️ | Declino costante, sotto i concorrenti |
| Microsoft WizardLM-2-8x22B | 5,0% → 11,7% ⬆️ | Tasso d’errore raddoppiato nonostante riassunti lunghissimi |
Tasso di risposta:
| Modello | Tasso di risposta | Tendenza / Note |
|---|---|---|
| Famiglia OpenAI GPT-4 (4, Turbo, 4o, 4o mini) | 100% ➡️ | Reattività sempre perfetta |
| GPT-3.5 Turbo | 99,6% ➡️ | Alta affidabilità, quasi perfetto |
| Snowflake Arctic | 100% ➡️ | Non rifiuta mai di rispondere |
| Microsoft Orca-2-13B | 100% ⬆️ | Migliorato fino alla piena reattività |
| Microsoft Phi-2 | 91,5% ➡️ | Ancora sotto i migliori, margine di crescita |
| Modelli Claude (2, 3, 3.5) | ~100% ➡️ | Completamente reattivi ma inclini ad allucinare |
| Apple OpenELM-3B | 99,3% ➡️ | Alto tasso di risposta nonostante scarsa accuratezza |
| tiiuae Falcon-7B | 90% ➡️ | Tra i più bassi tra i principali |
Lunghezza media del riassunto:
| Modello | Lunghezza media del riassunto (2025) | Tendenza / Note |
|---|---|---|
| Claude 3 Sonnet | 108,5 | Il più prolisso tra i principali |
| Claude 3.5 Sonnet | 103 | Risposte costantemente lunghe |
| WizardLM-2-8x22B | 140,8 | Output più lunghi in assoluto |
| OpenAI GPT-4 Turbo | 86,2 | Equilibrio tra chiarezza e dettaglio |
| OpenAI GPT-4o | 77,8 | Conciso ma informativo |
| Snowflake Arctic | 68,7 | Efficiente e diretto al punto |
| Flan-T5-large | 20,9 | Riassunti più brevi, dettaglio minimo |
| Apple OpenELM-3B | 47,2 | Riassunti brevi e semplici |
| tiiuae Falcon-7B | 75,5 | Verbosi a metà gamma |
Come abbiamo visto, le tendenze di allucinazione sono variate notevolmente tra i provider. I modelli OpenAI non solo hanno mostrato i maggiori miglioramenti, ma hanno anche mantenuto tassi di risposta impeccabili.
Al contrario, la serie Claude di Anthropic e Falcon-7B ha registrato forti cali, sollevando dubbi sull’affidabilità. Questo dimostra che scegliere l’LLM giusto non riguarda solo le capacità: è una questione di stabilità e affidabilità nei casi d’uso reali.
Come Posso Testare se un LLM come ChatGPT o Claude Sta Allucinando in Tempo Reale?
Rilevare le allucinazioni in tempo reale da modelli linguistici di grandi dimensioni come ChatGPT, Claude o Gemini non è più un tiro alla cieca nel 2026. Grazie a strumenti più intelligenti e output trasparenti, ora puoi validare i contenuti generati dall’IA man mano che procedi. Ecco come fare:

1. Fai una Domanda Basata sui Fatti
Esempio: “Chi ha vinto il Premio Nobel per la Fisica nel 2024?”
(Concentrati su domande verificabili piuttosto che su prompt aperti.)
2. Esamina l’Attribuzione delle Fonti
- ChatGPT (Pro) potrebbe non citare per impostazione predefinita.
- Claude spesso collega le fonti quando viene richiesto.
- Perplexity cita automaticamente le URL nel testo.
3. Usa uno Strumento di Fact-Checking in Tempo Reale
- 🔍 GPT-Checker: Evidenzia le affermazioni e le verifica automaticamente con i risultati di ricerca.
- 🛡️ Promptfoo: Testa coerenza e veridicità dei prompt su diversi modelli.
- 📊 Giskard IA: Segnala output allucinati nei flussi aziendali.
4. Verifica Incrociata su Fonti Affidabili
Copia la risposta dell’IA in un motore di ricerca, su Wikipedia o su un database di riviste scientifiche (es. PubMed, JSTOR) per una verifica immediata.
5. Usa il Prompt Engineering per Individuare Affermazioni Deboli
Chiedi: “Quanto sei sicuro di questa risposta?” oppure “Qual è la tua fonte?”
La maggior parte dei LLM ritratterà o mostrerà incertezza se l’affermazione è inventata.
Suggerimento LLM: I modelli tendono ad allucinare di più quando trattano argomenti di nicchia, eventi recenti o entità poco citate.
Perché le allucinazioni degli LLM contano più di quanto pensi?
Lavorando ad AllAboutAI, ho visto con i miei occhi come anche una piccola allucinazione da parte di un modello AI possa fuorviare gli utenti, distorcere la comprensione o danneggiare la credibilità. Questi errori non rimangono solo sullo schermo: possono influenzare decisioni reali. Ecco tre impatti principali che ho osservato.
- Distruggono la fiducia all’istante: Quando gli utenti scoprono che un modello inventa fatti o cita fonti false, spesso smettono completamente di fidarsi dello strumento. Ho visto lettori abbandonare piattaforme dopo una sola risposta errata.
- Diffondono disinformazione rapidamente: Un fatto allucinato, soprattutto se condiviso online, può trasformarsi in una falsa credenza diffusa. Ad AllAboutAI, dobbiamo verificare due volte i contenuti AI prima della pubblicazione per evitare proprio questo problema.
- Compromettono usi professionali: In ambiti come il diritto, la sanità e la finanza, anche un singolo dettaglio allucinato può causare gravi danni. Ho lavorato a progetti in cui verificare ogni frase era fondamentale per evitare rischi di conformità.
Quale Modello di IA Dovrebbero Usare i Professionisti nel 2026 per Risultati Più Accurati?
Sulla base dell’unione tra i miei test pratici e i dati completi del benchmark Vectara, ecco come scegliere il modello giusto per le tue esigenze:

Quali LLM sono migliori per casi d’uso ad alto rischio che richiedono massima accuratezza fattuale?
Questi modelli offrono i tassi di allucinazione più bassi, ideali per ambiti legali, sanitari, finanziari e regolamentati.
| Modello | Tasso di allucinazione (2025) | Raccomandazione |
|---|---|---|
| GPT-4o | ~1,5% | Miglior Scelta |
| GPT-4 Turbo | ~1,7% | Seconda Scelta |
| GPT-4 | ~1,8% | Da Considerare |
| Snowflake Arctic | ~3,0% | Da Considerare |
| Qwen2-72B-Instruct | ~4,7% | Da Considerare |
Quali LLM rendono meglio per creazione di contenuti business e attività analitiche?
Questi modelli eccellono in scrittura strutturata, report dettagliati e analisi in stile executive.
| Modello | Tasso di allucinazione (2025) | Raccomandazione |
|---|---|---|
| Claude 3.5 Sonnet | ~8,6% | Miglior Scelta (per tono & struttura) |
| GPT-3.5 Turbo | ~1,9% | Opzione Economica |
| Yi-1.5-6B-Chat | ~7,9% | Da Considerare |
| DBRX Instruct | ~8,35% | Da Considerare |
| LLaMA 2 13B | ~10,47% | Da Considerare (attenzione al drift) |
Quali LLM sono più affidabili per recupero di informazioni in tempo reale e fact-checking?
Usali quando informazioni aggiornate o sensibili al tempo sono essenziali (news, dati di mercato, decisioni in tempo reale).
| Modello | Tasso di allucinazione (2025) | Raccomandazione |
|---|---|---|
| Perplexity (Web) | — | Miglior Scelta (citazioni live) |
| Claude 3.5 Sonnet + Web | ~8,6% | Seconda Scelta |
| Cohere Chat | ~7,5% (ultimo comparabile) | Da Considerare |
Quali LLM mostrano alti tassi di allucinazione e andrebbero evitati in scenari fact-critical?
Questi modelli mostrano alta allucinazione o output fattuali inaffidabili e non dovrebbero essere usati in contesti sensibili o a elevata esigenza di accuratezza.
| Modello | Tasso di allucinazione (2025) | Raccomandazione |
|---|---|---|
| Apple OpenELM-3B | ~24,78% | Da Evitare |
| Mixtral 8x7B | ~20,1% | Da Evitare |
| Claude 3 Sonnet | ~16,3% | Da Evitare (in calo) |
| Claude 3 Opus | ~10,09% | Da Evitare |
| Gemini 1.5 Pro | ~6,6% | Con Cautela (in peggioramento) |
| Mistral 7B v0.1 | ~9,5% | Da Evitare |
Suggerimento Pro da AllAboutAI:
I dati mostrano che la versione del modello conta enormemente. I modelli OpenAI più recenti superano costantemente i loro predecessori. Specifica sempre l’esatta versione del modello quando l’affidabilità è critica.
Cosa dicono i numeri sulle allucinazioni dell’AI?
Per comprendere davvero l’entità del problema, dobbiamo guardare ai dati. Queste statistiche rivelano quanto siano comuni le allucinazioni nei LLM più avanzati e cosa succede quando si applicano tecniche di mitigazione.
- Tassi generali di allucinazione: Senza mitigazione, i tassi di allucinazione in scenari medici hanno raggiunto il 64,1% nei casi lunghi e il 67,6% nei casi brevi. Quando sono stati aggiunti prompt di mitigazione, questi tassi sono scesi rispettivamente al 43,1% e al 45,3%, mostrando un miglioramento notevole. (Medrxiv)
- Tasso di allucinazione di ChatGPT: ChatGPT genera contenuti allucinati in circa il 19,5% delle sue risposte. Queste allucinazioni compaiono spesso in argomenti come lingua, clima e tecnologia, dove può inventare affermazioni non verificabili. (Report)
- Tasso di allucinazione di Llama-2: In un esperimento usando il metodo InterrogateLLM, Llama-2 ha mostrato tassi di allucinazione fino al 87%, rendendolo uno dei modelli più inclini all’allucinazione testati con quel framework. (Report)
Cosa causa le allucinazioni dell’AI?

Capire perché gli LLM allucinano ci aiuta a usarli in modo più intelligente. Questi problemi non sono semplici bug: sono insiti nel funzionamento stesso dei modelli. Ecco cinque motivi principali dietro le allucinazioni dell’AI:
- Gli LLM sono addestrati su dati passati e non hanno accesso diretto a internet (a meno che non siano progettati per farlo), il che li porta a indovinare su argomenti recenti.
- I modelli AI danno priorità alla generazione di testi che “suonano bene” piuttosto che alla verifica della veridicità delle informazioni.
- Anche quando non sono sicuri, i modelli rispondono con tono sicuro, rendendo le allucinazioni difficili da individuare.
- Quando i prompt sono vaghi o troppo complessi, gli LLM tendono a “riempire i vuoti” con contenuti inventati per sembrare utili.
- Se un modello è stato addestrato su fonti obsolete, di parte o errate, tali imprecisioni possono emergere nelle sue risposte.
Come si possono ridurre le allucinazioni negli LLM?
Durante il mio lavoro ad AllAboutAI, ho testato e analizzato innumerevoli risposte generate da AI. Da quell’esperienza, ho scoperto che queste strategie aiutano costantemente a ridurre le allucinazioni degli LLM e migliorare l’accuratezza delle risposte.
- Chiedi direttamente le fonti: Prompt come “Puoi citare le fonti?” o “Includi un link per favore” incoraggiano il modello a basarsi su informazioni verificabili.
- Scomponi i prompt complessi: Dividere domande lunghe o articolate in passaggi più chiari aiuta il modello a rimanere concentrato e riduce il rischio di inventare.
- Usa modelli con recupero dati: Strumenti come Perplexity o ChatGPT con navigazione web forniscono risposte più accurate grazie all’accesso a fonti esterne verificate in tempo reale.
- Confronta più modelli: Eseguire lo stesso prompt su diversi LLM e confrontare le risposte aiuta a individuare incoerenze o allucinazioni che un singolo modello potrebbe non rilevare.
- Riformula finché è preciso: Se la risposta sembra imprecisa, riformulare il prompt con più contesto o chiarezza spesso porta a risultati più affidabili.
Pro e contro degli strumenti di rilevamento allucinazioni per LLM nel 2026
La crescita dei contenuti generati da LLM ha reso gli strumenti di rilevamento allucinazioni AI essenziali nel 2026, soprattutto per giornalisti, ricercatori e creatori di contenuti che si affidano all’accuratezza.
Strumenti come TruthfulQA, GPTZero, FactScore, Google’s Retrieval-Augmented Evaluation (RAE) e RealityCheck sono in prima linea nell’identificare output allucinati dai grandi modelli linguistici.
Pros
- Aiuta a verificare i contenuti generati da AI prima della pubblicazione.
- Molti strumenti offrono estensioni browser o API integrate.
- Testa GPT-4, Claude, Gemini, ecc. da un’unica interfaccia.
- Imposta il livello di severità desiderato nella rilevazione.
Cons
- A volte segnalano come errate informazioni corrette ma senza fonte.
- Possono non rilevare allucinazioni in prompt creativi o astratti.
- Gli strumenti professionali possono richiedere licenze a pagamento.
- Correzioni eccessive possono ostacolare creatività o scrittura speculativa.
I LLM Possono Gestire la Disinformazione Medica? Un Caso Reale
Per valutare con quale frequenza i LLM producono dettagli clinici falsi o inventati (allucinazioni) quando vengono presentati prompt con informazioni false inserite intenzionalmente, e per testare strategie di mitigazione.
Metodologia:
- I ricercatori hanno sviluppato 300 vignette cliniche validate da medici, ognuna contenente un dettaglio medico inventato come un risultato di laboratorio falso, una condizione inventata o un termine radiologico inesistente.
- Ogni vignetta era disponibile in due formati: una versione breve (50–60 parole) e una lunga (90–100 parole) per osservare l’effetto della lunghezza del prompt.
- Sei LLM sono stati valutati in tre condizioni di test diverse: Impostazione predefinita, uso di un prompt di mitigazione per ridurre le allucinazioni, temperatura impostata a zero per controllare la casualità.
- In totale, sono stati generati ed esaminati 5.400 output dei modelli.
- Qualsiasi caso in cui il modello ha ampliato il dettaglio falso è stato classificato come un’allucinazione.
Risultati Chiave:
- I tassi di allucinazione variavano dal 50% all’82,7%, rivelando un’alta vulnerabilità agli attacchi di allucinazione avversaria.
- Il prompt di mitigazione ha ridotto significativamente le allucinazioni, abbassando la media dal 66% al 44% (p < 0.001).
- Impostare la temperatura a zero non ha ridotto significativamente le allucinazioni, dimostrando che la casualità non è l’unica causa.
- Le vignette brevi hanno generato leggermente più allucinazioni (~67,6%) rispetto a quelle lunghe (~64,1%), anche se non sempre in modo statisticamente significativo.
- GPT-4o è stato il migliore, passando dal 53% al 23% con mitigazione. Al contrario, i modelli open-source come Distilled-DeepSeek-Llama hanno allucinato in oltre 80% degli output nelle impostazioni predefinite.
- Nei test qualitativi con affermazioni di salute pubblica, la maggior parte dei modelli ha evitato allucinazioni evidenti ma alcuni hanno comunque prodotto spiegazioni fuorvianti o non supportate per affermazioni false.
Fonte: Medrxiv
Cosa Ne Pensa Reddit? Opinioni Reali sulle Allucinazioni LLM
Gli utenti di Reddit avevano molto da dire quando è stato chiesto loro del tasso di allucinazione dei LLM e di quale fosse il più preciso. Molti hanno indicato o1 di OpenAI o GPT-4o come i più affidabili, soprattutto se collegati a internet. Anche Perplexity è stato apprezzato per le sue citazioni in tempo reale verificabili.
Detto ciò, la maggior parte concorda che è comunque necessario verificare tutto, indipendentemente dal modello. Alcuni utenti hanno riscontrato che chiedere al modello di fare fact-checking o ricerca ha migliorato i risultati, soprattutto con o1. Altri ritengono che Claude e Gemini abbiano spesso sbagliato, tranne quando il tema era codice o molto semplice.
Fonte: Thread su Reddit
Cosa Dicono gli Esperti sulle Allucinazioni dei LLM?
Per arricchire questa discussione, ho analizzato i pareri degli esperti su quale LLM allucina di più. Le loro intuizioni aiutano a capire perché alcuni modelli sono più affidabili di altri e cosa considerare nella scelta.
1. GPT-4 Mostra il Tasso di Allucinazione Più Basso nei Riassunti
Secondo aibusiness.com e il benchmark Vectara, GPT-4 ha avuto un tasso di allucinazione di solo 3% nei riassunti, il più basso tra tutti i modelli testati. Anche il suo predecessore, GPT-3.5, ha avuto buoni risultati (~3,5%), mentre Claude 2 e LLaMA-2 70B erano tra il 5% e l’8,5%. Ciò rafforza GPT-4 come il riassuntore più fedele ai fatti in compiti revisionati da esperti.
2. Claude 3 e Gemini Si Distinguono Rifiutandosi di Rispondere se Incerti
Nei compiti di Q&A aperti, uno studio di Cornell e AI2 ha rilevato che GPT-4 è stato il più preciso, ma Claude 3.5 (Haiku) si è distinto riducendo le allucinazioni attraverso frequenti rifiuti a rispondere a prompt incerti.
Anche Gemini ha ottenuto buoni risultati nel benchmark FACTS di DeepMind, uguagliando o superando leggermente GPT-4 nei compiti su documenti concreti, con una precisione fattuale dell’83–86% (venturebeat.com).
3. I Compiti di Ragionamento Smascherano i Modelli Piccoli, ma GPT-4 e Claude Guidano
Nei test logici come GSM8K, lo Stanford AI Index mostra GPT-4 con un punteggio tra 92–97% senza quasi nessun passaggio inventato. Claude 3 lo segue da vicino, a volte anche superandolo nel ragionamento multi-step.
I modelli open-source come LLaMA-2 e Mistral, specialmente le versioni 7B, hanno frequentemente inserito passaggi di ragionamento falsi o supposizioni errate, portando a tassi di allucinazione superiori al 9% (arxiv.org).
Prospettive Future: I LLM Smetteranno Mai di Allucinare?

La corsa per costruire IA più affidabili sta accelerando, e il controllo delle allucinazioni è al centro. Ecco cosa potrebbe riservare il futuro per risolvere il problema di quale LLM allucina di più.
- I LLM Si Affideranno Sempre Più all’Integrazione di Dati in Tempo Reale
I modelli collegati a database live o a Internet diventeranno la norma per ridurre informazioni obsolete o inventate. - I Sistemi IA Includeranno Strati di Verifica Fattuale
I futuri LLM includeranno probabilmente meccanismi di verifica integrati per controllare le affermazioni prima di presentarle agli utenti. - Emergeranno Benchmark Aperti per il Monitoraggio delle Allucinazioni
Benchmark pubblici e trasparenti valuteranno i modelli in base al tasso di allucinazione, proprio come gli attuali punteggi di accuratezza o velocità.
Lavorando su AllAboutAI, ho visto quanto sia urgente che i modelli IA siano più responsabili e verificabili. Molti progetti richiedono ora output di cui ci si possa fidare senza controlli manuali continui. Credo che il futuro appartenga ai modelli che non solo generano contenuti, ma giustificano e verificano ciò che dicono in tempo reale.
Questo mette in luce anche un problema più profondo dietro l’attuale bolla dell’IA. Troppi strumenti promettono “precisione” e “automazione” senza offrire veri meccanismi di prova o validazione. Quando i sistemi di IA non riescono a spiegare o verificare i propri risultati, l’hype cresce più rapidamente dell’affidabilità.
Leggi Altre Guide Informative su AllAboutAI
- Quanto sono accurate le previsioni astrologiche dell’AI: Gli strumenti di astrologia AI sembrano divertenti, ma sono affidabili?
- ChatGPT o3 Pro vs Claude 4 vs Gemini 2.5 Pro: Sfida tra Giganti dell’IA per una Brillantezza Quotidiana
- Loop Dopaminici e LLM: Dirottare l’Attenzione, Reinventare il Pensiero, Alimentare la Dipendenza da IA
- Migliori Film sull’IA: Storie tecnologiche mozzafiato che toccano il cuore
- Carriere nell’IA: Lavori pronti per il futuro guidati da innovazione intelligente
Domande Frequenti (FAQ)
Cosa sono le allucinazioni negli LLM?
Qual è il tasso di allucinazione di un LLM?
Qual è l’allucinazione più comune?
Perplexity allucina meno perché cita le fonti?
Come si comporta GPT-4.5 rispetto ad altri LLM nelle allucinazioni?
Conclusione
Dopo aver condotto i miei test su 10 prompt e analizzato i benchmark di settore Vectara 2025 completi, i risultati sono chiari: il panorama dell’affidabilità dell’IA è diventato estremamente polarizzato.
Dai miei test pratici, Perplexity ha dominato negli scenari del mondo reale con un’accuratezza delle citazioni superiore, mentre GPT-5 ha mostrato solide prestazioni tecniche. La gravità delle allucinazioni degli LLM dipende dal tipo di compito, ma in generale, i modelli più piccoli o non ottimizzati allucinano molto più spesso.
Quale modello ritieni più affidabile per i fatti? Fammi sapere nei commenti!