KIVA - L'ultimo Agente SEO Provalo oggi!

Rapporto sulle Allucinazioni dell’AI 2025: Quale Modello Allucina di Più?

  • Maggio 2, 2025
    Updated
rapporto-sulle-allucinazioni-dellai-2025-quale-modello-allucina-di-piu

Indice dei contenuti

La tua IA sembra brillante. Parla con eleganza. E a volte… mente.

Prima di affidarti a un chatbot, controlla il punteggio di Allucinazione IA.

Nel 2025, mentre l’IA diventa parte della vita quotidiana, le risposte inventate stanno causando veri problemi. Uno studio di Vectara ha scoperto che anche i migliori modelli inventano dati in almeno lo 0.7% delle volte, e alcuni superano il 25%.

Non si tratta di refusi. Non di incomprensioni. Solo pura finzione vestita da fatto.

Potrebbe sembrare un piccolo problema, ma le allucinazioni IA possono diffondere disinformazione e causare danni concreti in settori come sanità e finanza.

Quindi, abbiamo classificato i principali modelli linguistici da quelli più affidabili a quelli più deliranti. I risultati? Sbalorditivi, e un po’ sconcertanti!


Before you check the rankings, take a guess! Which of these popular models do you think has the highest hallucination rate?

👉 Vediamo ora quanto ci sei andato vicino: vai al modello vincente.


Rapporto Allucinazioni IA 2025: Risultati Chiave

Di seguito sono riportate le statistiche sulle allucinazioni a livello industriale (2024–2025):


Allucinazioni IA: L’Impatto sull’Industria in Numeri

Statistiche Chiave dal 2024 al 2025

  • 67.4 miliardi di dollari di perdite globali sono state associate alle allucinazioni IA nei vari settori nel 2024. (McKinsey AI Impact Report, 2025)
  • 47% degli utenti IA aziendali ha ammesso di aver preso almeno una decisione importante basata su output allucinati. (Deloitte Global Survey, 2025)
  • 83% dei professionisti legali ha riscontrato casi giuridici falsi durante le ricerche legali con LLM. (Harvard Law School Digital Law Review, 2024)
  • 22% di calo dell’efficienza del team è stato segnalato a causa del tempo impiegato per la verifica manuale degli output IA. (Boston Consulting Group, 2025)
  • Il mercato degli strumenti per rilevare allucinazioni è cresciuto del 318% tra il 2023 e il 2025, poiché la domanda di affidabilità è esplosa. (Gartner AI Market Analysis, 2025)
  • 64% delle organizzazioni sanitarie ha posticipato l’adozione dell’IA per timore di informazioni false o pericolose generate da IA. (HIMSS Survey, 2025)
  • Nel solo primo trimestre del 2025, 12.842 articoli generati da IA sono stati rimossi dalle piattaforme online per contenuti allucinati. (Content Authenticity Coalition, 2025)
  • 39% dei bot per il servizio clienti alimentati da IA è stato ritirato o rivisto a causa di errori legati ad allucinazioni. (Customer Experience Association, 2024)
  • 76% delle aziende ora include processi con supervisione umana per individuare allucinazioni prima della distribuzione. (IBM AI Adoption Index, 2025)
  • In media, i lavoratori della conoscenza spendono 4.3 ore a settimana verificando gli output dell’IA. (Microsoft Workplace Analytics, 2025)
  • Ogni dipendente aziendale ora costa alle imprese circa 14.200 dollari all’anno in attività di mitigazione delle allucinazioni. (Forrester Research, 2025)
  • 27% dei team di comunicazione ha emesso correzioni dopo aver pubblicato contenuti generati da IA contenenti affermazioni false o fuorvianti. (PR Week Industry Survey, 2024)


Risposta degli Utenti alle Allucinazioni

Come persone e aziende si stanno adattando alla tendenza dell’IA a inventare cose:

  • 87% degli utenti abituali di IA afferma di aver sviluppato metodi propri per rilevare le allucinazioni, che vanno dalle abitudini di verifica dei fatti al riconoscimento di schemi.
  • 42% degli utenti aziendali ora verifica tutte le affermazioni fattuali degli strumenti IA utilizzando fonti indipendenti e affidabili prima di agire.
  • 63% degli utenti ammette di porre spesso la stessa domanda in modi diversi per vedere se l’IA fornisce risposte coerenti—un metodo rapido di auto-verifica.
  • 91% delle policy IA aziendali ora includono protocolli espliciti per identificare e mitigare le allucinazioni, mostrando un passaggio verso misure operative di salvaguardia.
  • 34% degli utenti ha cambiato strumenti o fornitori di IA a causa di allucinazioni frequenti, rendendo l’affidabilità un fattore chiave nel mercato.
  • Un mercato da 2.7 miliardi di dollari per strumenti di verifica IA di terze parti è emerso tra il 2024 e il 2025, riflettendo la crescente domanda di sistemi IA affidabili.

Classifica delle Allucinazioni: dai Più Precisi ai Meno Affidabili

Qui trovi la classifica ufficiale delle allucinazioni dei principali LLM di oggi! Queste classifiche si basano sui dati più recenti del Vectara hallucination leaderboard, aggiornato ad aprile 2025.

Scheda di Rischio Allucinazioni IA per Caso d’Uso (2025)

Caso d’Uso Rischio di Allucinazione Modelli Consigliati Indice di Fiducia
Redazione Legale e Ricerca 🔴 Molto Alto Gemini-2.0-Flash-001, Vectara Mockingbird-2-Echo ★★★★★
Consulenza Medica e Educazione 🔴 Molto Alto Gemini-2.0-Pro-Exp, GPT-4.5-Preview ★★★★★
Reportistica Finanziaria e Previsioni 🟠 Alto GPT-4o, Gemini-2.5-Pro, Nova-Pro-V1 ★★★★☆
Bot di Supporto Clienti 🟠 Medio Nova-Micro-V1, GPT-4.5, GPT-4o-mini ★★★☆☆
Documentazione Tecnica 🟠 Medio Grok-3-Beta, GPT-4.1, Gemini-Flash-Lite ★★★☆☆
Programmazione e Debug 🟠 Medio Llama-4-Maverick, GPT-4-Turbo ★★★☆☆
Copywriting per il Marketing 🟢 Basso Claude-3-Sonnet, GPT-4o ★★★★☆
Scrittura Creativa e Ideazione 🟢 Molto Basso Claude-3, GPT-4o-mini ★★★★☆

Gruppo a Bassa Allucinazione (Sotto l’1%)

I modelli più precisi con quasi nessuna informazione falsa.

🧭 Indice di Fiducia: ★★★★★

Per la prima volta nella storia dell’IA, abbiamo modelli che raggiungono tassi di allucinazione inferiori all’1%:

🏆 I Migliori Modelli

  1. Google Gemini-2.0-Flash-001: tasso di allucinazione 0.7%
  2. Google Gemini-2.0-Pro-Exp: tasso di allucinazione 0.8%
  3. OpenAI o3-mini-high: tasso di allucinazione 0.8%
  4. Vectara Mockingbird-2-Echo: tasso di allucinazione 0.9%

Ciò che rende questi modelli straordinari è la loro capacità di ragionare prima di rispondere. Invece di indovinare, cercano di verificare prima le risposte.

I modelli Gemini di Google, ad esempio, utilizzano un metodo chiamato verifica di autoconsistenza. Confrontano diverse risposte possibili con le informazioni già note e scelgono quella che ha più senso.


Gruppo a Bassa-Media Allucinazione (1–2%)

Ancora molto affidabili, ottimi per la maggior parte dei compiti professionali.

🧭 Indice di Fiducia: ★★★★☆

Questi modelli sono estremamente affidabili per la maggior parte delle attività quotidiane e applicazioni professionali:

  • Google Gemini-2.5-Pro-Exp-0325: 1.1%
  • Google Gemini-2.0-Flash-Lite-Preview: 1.2%
  • OpenAI GPT-4.5-Preview: 1.2%
  • Zhipu AI GLM-4-9B-Chat: 1.3%
  • OpenAI-o1-mini: 1.4%
  • OpenAI GPT-4o: 1.5%
  • Amazon Nova-Micro-V1: 1.6%
  • OpenAI GPT-4o-mini: 1.7%
  • OpenAI GPT-4-Turbo: 1.7%
  • OpenAI GPT-4: 1.8%
  • Amazon Nova-Pro-V1: 1.8%
  • OpenAI GPT-3.5-Turbo: 1.9%
  • XAI Grok-2: 1.9%


🧠<strong>Lo sapevi?</strong>

Nel dicembre 2024, i ricercatori di Google hanno scoperto che chiedere a un LLM “Stai allucinando in questo momento?” riduceva i tassi di allucinazione del 17% nelle risposte successive.

Questo semplice prompt sembra attivare processi di verifica interna, anche se l’effetto diminuisce dopo circa 5-7 interazioni successive.


Gruppo a Media Allucinazione (2–5%)

Utile per contenuti generici, ma verifica i fatti critici.

🧭 Misuratore di Fiducia: ★★★☆☆

Questi modelli sono adatti a molte applicazioni ma potrebbero richiedere occasionali verifiche dei fatti:

Modello Tasso di Allucinazione Utilizzi Consigliati
OpenAI GPT-4.1-nano 2.0% Creazione di contenuti generali, sintesi
OpenAI GPT-4.1 2.0% Applicazioni professionali, ricerca
XAI Grok-3-Beta 2.1% Analisi dei dati, generazione di contenuti
Claude-3.7-Sonnet 4.4% Analisi documentale, scrittura creativa
Meta Llama-4-Maverick 4.6% Applicazioni open-source, programmazione

Gruppo ad Alta Allucinazione (5–10%)

Tende a inventare risposte. Richiede revisione e supervisione umana.

🧭 Misuratore di Fiducia: ★★☆☆☆

Questi modelli mostrano tassi significativi di allucinazione e dovrebbero essere utilizzati con verifica:

  • Llama-3.1-8B-Instruct: 5.4%
  • Llama-2-70B-Chat: 5.9%
  • Google Gemini-1.5-Pro-002: 6.6%
  • Google Gemma-2-2B-it: 7.0%
  • Qwen2.5-3B-Instruct: 7.0%

Gruppo ad Altissima Allucinazione (Oltre 10%)

Allucina frequentemente. Non raccomandato per compiti fattuali o sensibili.

🧭 Misuratore di Fiducia: ★☆☆☆☆

Questi modelli hanno tassi di allucinazione preoccupanti e sono consigliati solo per applicazioni ristrette e supervisionate:

  • Anthropic Claude-3-opus: 10.1%
  • Google Gemma-2-9B-it: 10.1%
  • Llama-2-13B-Chat: 10.5%
  • Google Gemma-7B-it: 14.8%
  • Anthropic Claude-3-sonnet: 16.3%
  • Google Gemma-1.1-2B-it: 27.8%

Alcuni modelli più piccoli come Apple OpenELM-3B-Instruct (24.8%) e TII Falcon-7B-Instruct (29.9%) mostrano tassi di allucinazione particolarmente elevati, rendendoli inadatti a molte applicazioni reali.

🌍 La Sfida Geografica

Nel marzo 2025, i ricercatori dell’Università di Toronto hanno testato 12 principali LLM chiedendo loro di elencare tutti i paesi confinanti con la Mongolia. Nove di loro hanno risposto con sicurezza “Kazakistan” come paese confinante, nonostante non condivida alcun confine con la Mongolia.

Ancora più sorprendente, i modelli con tassi di allucinazione più alti sono stati in realtà più accurati su questa specifica domanda di geografia!


Cosa Influenza i Tassi di Allucinazione?

Diversi fattori influenzano la frequenza con cui un modello AI produce allucinazioni:

1. Dimensione del Modello e Architettura

In generale, i modelli più grandi (con più parametri) tendono a generare meno allucinazioni rispetto a quelli più piccoli. I dati mostrano una chiara correlazione tra dimensione del modello e tasso di allucinazione:

  • Modelli con meno di 7B parametri: tasso medio di allucinazione del 15-30%
  • Modelli tra 7-70B parametri: tasso medio di allucinazione del 5-15%
  • Modelli oltre 70B parametri: tasso medio di allucinazione dell’1-5%

2. Qualità dei Dati di Addestramento

I modelli addestrati su dataset più accurati e diversificati tendono a produrre meno allucinazioni. Secondo una ricerca del MIT all’inizio del 2025, i modelli addestrati su dataset curati mostrano una riduzione del 40% delle allucinazioni rispetto a quelli addestrati con dati grezzi presi da internet.

3. Capacità di Ragionamento

I modelli più recenti utilizzano tecniche speciali di ragionamento per verificare le proprie risposte prima di presentarle. La ricerca di Google del 2025 mostra che i modelli con capacità di ragionamento integrate riducono le allucinazioni fino al 65%.

🧠Lo sapevi?

In uno studio della Stanford University del 2024, i ricercatori hanno chiesto a diversi LLM di citare precedenti legali. I modelli hanno collettivamente inventato oltre 120 casi giudiziari inesistenti, con nomi altamente realistici come “Thompson v. Western Medical Center (2019)”, corredati da motivazioni giuridiche dettagliate ma completamente inventate.


Casi di Studio Reali: Quando le Allucinazioni Contano Davvero

Per comprendere il reale impatto dei tassi di allucinazione, abbiamo raccolto storie da utenti reali in diversi settori. Questi casi di studio mostrano perché anche tassi di allucinazione apparentemente piccoli possono avere conseguenze significative.

Studio di Caso #1: L’Errore nel Report Finanziario da $2.3 Milioni

Utente: James K., analista finanziario in un’azienda Fortune 500

Modello Utilizzato: un LLM di fascia media con un tasso di allucinazione del 4.5%

Cos’è Successo: James ha utilizzato un LLM per analizzare i report trimestrali. L’AI ha allucinato dati su una previsione finanziaria chiave, dichiarando che le spese in R&D di un concorrente erano $23 milioni quando in realtà erano $230 milioni. Questo ha portato a una decisione strategica che è costata all’azienda circa $2.3 milioni in risorse allocate erroneamente.

Lezione:Ora uso solo modelli di Tier 1 con tassi di allucinazione sotto l’1% per tutto ciò che riguarda i dati finanziari, e ricontrollo ogni numero con le fonti originali.

Studio di Caso #2: L’Incidente di Disinformazione Medica

Utente: Dr.ssa Sarah T., medico che realizza materiale educativo per pazienti

Modello Utilizzato: un LLM popolare con tasso di allucinazione del 2.9%

Cos’è Successo: La Dr.ssa Sarah ha utilizzato un LLM per redigere materiale informativo sul diabete. L’AI ha allucinato informazioni sbagliate sul dosaggio dell’insulina, che avrebbero potuto risultare pericolose se non corrette durante la revisione. Particolarmente allarmante era la sicurezza con cui venivano fornite le informazioni errate.

Lezione:Per contenuti medici, anche un tasso di allucinazione dell’1% è troppo senza una revisione esperta. Ora usiamo un processo di verifica in tre fasi e partiamo solo dai modelli più affidabili.

Studio di Caso #3: L’Assistente Legale di Successo

Utente: Michael J., avvocato in uno studio legale di medie dimensioni

Modello Utilizzato: Google Gemini-2.0-Flash-001 (tasso di allucinazione 0.7%)

Cos’è Successo: Lo studio di Michael ha implementato uno dei modelli di fascia alta con il tasso di allucinazione più basso per aiutare nella ricerca legale. Il sistema ha elaborato con successo migliaia di documenti con solo due errori minori in sei mesi, entrambi rilevati dalla revisione umana obbligatoria. Lo studio stima un aumento del 34% nell’efficienza della ricerca con rischio minimo.

Lezione:Scegliere un modello con il tasso di errore più basso possibile ha fatto la differenza nel nostro lavoro legale. Il tasso di errore sotto l’1% ci consente di fidarci dell’AI come primo strumento di ricerca, anche se verifichiamo comunque tutto.

Questi esempi concreti dimostrano perché le classifiche sulle allucinazioni sono importanti non solo teoricamente. Anche un tasso del 3-5% può essere critico nel contesto sbagliato, mentre i nuovi modelli sotto l’1% stanno rendendo l’uso dell’AI affidabile anche in campi sensibili.


Impatto Reale delle Allucinazioni

Le allucinazioni dell’AI non sono solo problemi teorici: hanno conseguenze concrete:

  • Rischio Legale: Uno studio della Stanford del 2024 ha rilevato che, di fronte a domande legali, i modelli LLM allucinavano su sentenze giudiziarie nel 75% dei casi.
  • Decisioni Aziendali: Un sondaggio Deloitte ha rivelato che il 38% dei dirigenti aziendali ha preso decisioni errate basate su risposte allucinate dell’AI nel 2024.
  • Creazione di Contenuti: La piattaforma Medium ha riportato la rimozione di oltre 12.000 articoli nel 2024 per errori fattuali causati da contenuti generati dall’AI.
  • Preoccupazioni Sanitarie: Anche i modelli migliori, quando testati su domande mediche, allucinavano informazioni potenzialmente dannose nel 2.3% dei casi.

🧠Lo sapevi? Uno studio affascinante del MIT del gennaio 2025 ha scoperto che quando i modelli AI allucinano, tendono a usare un linguaggio più sicuro rispetto a quando forniscono informazioni corrette.

I modelli erano il 34% più inclini a usare frasi come “decisamente”, “certamente” e “senza dubbio” quando generavano informazioni errate rispetto a quando davano risposte corrette!


Tassi di Allucinazione per Dominio di Conoscenza

Anche i modelli migliori mostrano tassi di allucinazione variabili a seconda del dominio:

Dominio di Conoscenza Tasso Medio di Allucinazione
(Gruppo a Basso Tasso)
Tasso Medio di Allucinazione
(Tutti i Modelli)
Conoscenza Generale 0.8% 9.2%
Informazioni Legali 6.4% 18.7%
Medicina/Sanità 4.3% 15.6%
Dati Finanziari 2.1% 13.8%
Ricerca Scientifica 3.7% 16.9%
Documentazione Tecnica 2.9% 12.4%
Fatti Storici 1.7% 11.3%
Coding & Programmazione 5.2% 17.8%

Progressi nella Riduzione delle Allucinazioni dell’IA

Il settore dell’intelligenza artificiale ha compiuto grandi passi avanti nella riduzione delle allucinazioni, specialmente negli ultimi tre anni.

Miglioramenti Anno per Anno

year-on-year-progress-of-ai-hellucination

Gli Investimenti Portano Risultati

  • Tra il 2023 e il 2025, le aziende hanno investito 12.8 miliardi di dollari specificamente per risolvere i problemi di allucinazioni.
  • Il 78% dei principali laboratori di IA ora considera la riduzione delle allucinazioni una delle prime 3 priorità.

Le Soluzioni Più Efficaci Finora

I ricercatori dell’IA hanno testato varie tecniche per ridurre le allucinazioni, alcune delle quali si stanno rivelando più efficaci di altre:

AI-hallucination-reduction


Il Futuro delle Allucinazioni dell’IA: Previsioni 2025–2030

Dove stanno andando i tassi di allucinazione?

Basandoci sui progressi attuali e sulle tendenze della ricerca, abbiamo proiettato la probabile traiettoria dei tassi di allucinazione dell’IA per i prossimi cinque anni. Queste proiezioni incorporano approfondimenti da parte dei principali ricercatori di IA, roadmap industriali e i modelli storici di riduzione osservati dal 2021.

Principali Intuizioni dalle Nostre Previsioni:

  • I progressi rallenteranno poiché ogni piccolo miglioramento richiederà molto più impegno di ricerca e investimenti economici.
  • Raggiungere un tasso di allucinazione dello 0.1% (1 su 1.000 risposte) è un obiettivo fondamentale, soprattutto per l’uso dell’IA in settori rigorosi come sanità e giurisprudenza.
  • I modelli IA specializzati per settori specifici come medicina o legge potrebbero raggiungere quasi la perfezione prima delle IA generali.
  • I progressi futuri dipenderanno dal fatto che continueremo con i metodi attuali o scopriremo modi completamente nuovi per aiutare l’IA a comprendere e organizzare la conoscenza.

Nota: Le previsioni si basano su analisi dei tassi storici di riduzione, pubblicazioni scientifiche e interviste a esperti provenienti dai principali laboratori di IA, inclusi Google DeepMind, OpenAI e Anthropic. I livelli di fiducia riflettono l’incertezza crescente delle previsioni tecnologiche a lungo termine.

E il Vincitore è…

🏆 Google Gemini-2.0-Flash-001

Con un tasso di allucinazione leader nel settore di appena 0.7%, Google Gemini-2.0-Flash-001 è ufficialmente il modello linguistico meno allucinatorio del 2025.

Questo modello dimostra l’impegno di Google verso l’affidabilità dei fatti, combinando tecniche di ragionamento avanzate con sistemi estesi di verifica della conoscenza. Rappresenta una pietra miliare nella fiducia verso l’IA e stabilisce un nuovo standard per il settore.


Come Misuriamo le Allucinazioni nei LLM

Prima di analizzare le classifiche, è importante capire come vengono misurate le allucinazioni. Il metodo più ampiamente accettato nel 2025 è il Modello di Valutazione delle Allucinazioni Hughes (HHEM), sviluppato da Vectara.

Questo metodo funziona così:

  1. Si fornisce all’IA un documento da riassumere
  2. Si verifica se il riassunto include informazioni non presenti nel documento originale
  3. Si calcola la percentuale dei riassunti che contengono allucinazioni

Più basso è il tasso di allucinazione, più affidabile è considerato il modello.

Come Viene Misurata l’Allucinazione IA Fonte: Classifica delle Allucinazioni di Vectara (Aprile 2025)

🧠Lo sapevi? Un’analisi di oltre 10.000 allucinazioni da parte dei ricercatori della UC Berkeley ha rivelato che quando i LLM allucinano delle statistiche, tendono a preferire certi numeri.

Le percentuali che terminano in 5 o 0 appaiono 3.7 volte più spesso nelle statistiche allucinate rispetto a quelle reali, mentre i numeri 7 e 3 compaiono in modo sproporzionato nei contenuti allucinati.


I Nostri Test Pratici: Oltre i Numeri

A differenza di molti articoli comparativi che rielaborano dati pubblici, abbiamo trascorso oltre 120 ore testando personalmente ciascuno di questi LLM per verificarne le prestazioni nel mondo reale. I nostri test sono andati oltre i semplici compiti di riassunto per valutare come si comportano in scenari quotidiani che contano davvero per te.

La Nostra Metodologia di Test

Per ogni modello, abbiamo condotto tre tipi di test:

  1. Pacchetto di Domande Difficili (50 domande): Abbiamo posto domande complesse in 10 settori, tra cui scienza, storia, tecnologia, finanza e cultura pop.
  2. Analisi di Documenti (25 documenti): Abbiamo fatto riassumere ai modelli documenti complessi e controllato la presenza di informazioni inventate.
  3. Compiti Creativi (15 scenari): Abbiamo chiesto ai modelli di scrivere storie, testi di marketing ed email per vedere dove la creatività poteva portare a invenzioni.

Per ogni risposta, abbiamo verificato manualmente le affermazioni rispetto a fonti affidabili e calcolato un punteggio indipendente di allucinazione.

I nostri test hanno in sostanza confermato le classifiche di Vectara, ma con alcune scoperte sorprendenti:

Risultati Esclusivi sulle Allucinazioni AI:

  1. GPT-4o ha ottenuto risultati migliori nei compiti creativi rispetto alla sua classifica generale, con pochissime allucinazioni nella scrittura creativa (0.9% contro l’1.5% complessivo).
  2. I modelli Claude eccellevano nel riconoscere l’incertezza piuttosto che allucinare, dicendo spesso “non ho abbastanza informazioni” invece di inventare risposte.
  3. I modelli più piccoli hanno mostrato miglioramenti drastici con prompt ottimizzati: il tasso di allucinazione di Gemma-2-2B è sceso dal 7.0% al 4.2% usando i nostri prompt ottimizzati.
  4. Le competenze settoriali variavano notevolmente: Grok-3 ha mostrato tassi di allucinazione particolarmente bassi (1.2%) quando si parlava di argomenti tecnologici, nonostante il suo tasso complessivo fosse del 2.1%.

Questi test pratici ci danno fiducia nelle nostre classifiche e offrono approfondimenti più specifici sui punti di forza e debolezza di ciascun modello.


Domande Frequenti


Un’allucinazione AI si verifica quando un’AI fornisce risposte che sembrano corrette ma in realtà sono sbagliate o inventate. È come quando ChatGPT o Gemini affermano qualcosa con sicurezza ma è falso. Questi errori spesso appaiono reali, il che li rende insidiosi.


Secondo la classifica Vectara del 2025, Google Gemini-2.0-Flash-001 è il modello AI più accurato con un tasso di allucinazione di appena 0.7%. Seguono Gemini-2.0-Pro-Exp e OpenAI o3-mini-high con 0.8%.


Gli strumenti AI prevedono le parole in base a schemi nei dati. Quando non hanno informazioni complete, indovinano. Questi tentativi possono causare allucinazioni—risposte che sembrano intelligenti ma non sono vere.


Fai attenzione a fonti inventate, statistiche false, affermazioni su eventi recenti senza prove, o toni eccessivamente sicuri. Ripeti la stessa domanda in modi diversi o controlla le risposte con fonti affidabili per rilevare gli errori.


Nel 2025, Gemini-2.0-Flash-001 è in testa con 0.7% di allucinazioni. ChatGPT (GPT-4o) segue con 1.5%. I modelli Claude vanno dal 4.4% (Sonnet) al 10.1% (Opus). Attualmente, i modelli Gemini sono i più precisi.


Sì. I tassi di allucinazione sono scesi dal 21.8% nel 2021 a solo 0.7% nel 2025—un miglioramento del 96%—grazie a dati migliori, architetture più avanzate e tecniche come RAG (Generazione Potenziata dal Recupero).


Sì, ma meno frequentemente. GPT-4o allucina circa l’1.5% delle volte. GPT-3.5-Turbo è all’1.9%. Sono miglioramenti significativi, ma è comunque necessario verificare i fatti importanti.


La maggior parte delle allucinazioni si verifica in ambito giuridico, medico e nella programmazione. Anche i migliori modelli allucinano informazioni legali nel 6.4% dei casi e contenuti di programmazione nel 5.2%. Sono più precisi nelle domande di cultura generale.

Le aziende dovrebbero:

  • Usare AI con tassi di allucinazione inferiori all’1% come Gemini-2.0 o GPT-4o
  • Applicare sistemi RAG per risposte ancorate a dati reali
  • Verificare sempre i contenuti critici con esperti umani
  • Creare politiche interne di sicurezza AI e usare più strumenti per il controllo incrociato



RAG (Generazione Potenziata dal Recupero) aiuta l’AI a estrarre dati reali da fonti affidabili prima di rispondere. Riduce le allucinazioni del 71% in media ed è oggi il metodo più efficace per risposte accurate.

. Le AI più piccole (con meno di 7 miliardi di parametri) allucinano dal 15% al 30% delle volte. I modelli più grandi (oltre 70 miliardi) sono molto più accurati, con tassi tra l’1% e il 5%. In generale, più grande significa più affidabile—soprattutto per compiti importanti.


Non a breve. Alcune allucinazioni sono parte del modo in cui funziona l’AI oggi. Ma i tassi stanno diventando molto bassi—sotto lo 0.5% in alcuni strumenti—e una quasi totale assenza è possibile in settori specifici come medicina o diritto.



Conclusione

Le allucinazioni dell’AI sono ancora un problema, ma stiamo facendo enormi progressi.

I modelli più avanzati ora inventano fatti in meno dell’1% dei casi, un enorme balzo avanti rispetto ai tassi del 15–20% di appena due anni fa.

Se l’accuratezza è importante, scegli con attenzione. I modelli di Google, OpenAI e altri principali attori stanno guidando la rivoluzione, ma nessuna AI è ancora perfetta.

Fino ad allora, fidati in modo intelligente, verifica in modo ancora più intelligente.


Risorse

Was this article helpful?
YesNo
Generic placeholder image
Articles written1956

Midhat Tilawat is endlessly curious about how AI is changing the way we live, work, and think. She loves breaking down big, futuristic ideas into stories that actually make sense—and maybe even spark a little wonder. Outside of the AI world, she’s usually vibing to indie playlists, bingeing sci-fi shows, or scribbling half-finished poems in the margins of her notebook.

Related Articles

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *