Un file robots.txt ben ottimizzato aiuta a controllare come i motori di ricerca eseguono la scansione e indicizzano il tuo sito, guidandoli verso le pagine chiave e bloccando quelle di basso valore. Usa la nostra SEO Checklist per verificare ogni direttiva mentre la costruisci.
Implementando varie best practice per robots.txt, incluso il robots.txt incentrato sull’honeypot, puoi ottimizzare le prestazioni SEO del tuo sito, proteggere i contenuti sensibili e gestire il carico del server.
Questo file è particolarmente importante per i siti di grandi dimensioni o per quelli con specifiche restrizioni sui contenuti. Comprendere e applicare le direttive giuste farà sì che i motori di ricerca eseguano la scansione solo delle pagine più rilevanti, migliorando la visibilità del tuo sito nei risultati di ricerca.
Che cos’è un file Robots.txt?
Un file robots.txt dice ai motori di ricerca quali parti del tuo sito dovrebbero o non dovrebbero scansionare.
Una parte importante della SEO è assicurarsi che i motori di ricerca comprendano correttamente il tuo sito web. Il file robots.txt è un modo per guidare i motori di ricerca su come interagire con il tuo sito. Svolge un ruolo chiave nell’ottimizzare il crawl budget del tuo sito.
Per i siti grandi con molte URL, questo file assicura che i crawler si concentrino sulle pagine importanti invece di sprecare risorse su pagine di scarso valore come login o pagine di ringraziamento. In questo modo, Google può eseguire la scansione e indicizzare il tuo sito in modo più efficace.
Come si presenta un file Robots.txt e come si formatta?
Un file robots.txt è un insieme di regole che guida i motori di ricerca su come eseguire la scansione di un sito web. Di seguito trovi un esempio di robots.txt di base per un sito WordPress:
User-agent: *
Disallow: /wp-admin/
Scomposizione dell’esempio
- User-agent: Specifica a quale motore di ricerca (come Google, Bing) si applica la regola.
- * (asterisco): Significa che la regola si applica a tutti i motori di ricerca.
- Disallow: Dice ai motori di ricerca di non accedere a una determinata parte del sito.
- /wp-admin/: La directory a cui i motori di ricerca non possono accedere.
Questo esempio indica a tutti i motori di ricerca di non accedere all’area admin di WordPress (/wp-admin/).
Ordine di precedenza in Robots.txt (conflitti semplificati)
Vince la regola più specifica. Se due regole corrispondono, Google applica quella più specifica. Se sono ugualmente specifiche, vince la meno restrittiva.
User-agent: * Disallow: /downloads/ Allow: /downloads/free/ # più specifico → consentito
User-agent: * Disallow: /downloads/ Allow: /downloads/ # ugualmente specifico → vince la meno restrittiva (consentito) </pre] La specifica è formalizzata in RFC 9309 e nella documentazione Google.
Componenti chiave di un file Robots.txt
1. User-agent
I motori di ricerca si identificano con nomi come:
- Google:
Googlebot - Yahoo:
Slurp - Bing:
BingBot
Le regole in robots.txt possono essere applicate a motori di ricerca specifici o a tutti utilizzando User-agent: *.
2. Direttiva Disallow
Usata per bloccare l’accesso dei motori di ricerca a determinate pagine o directory.
Esempio:
User-agent: *
Disallow: /private/
Questo impedisce ai motori di ricerca di scansionare la cartella /private/.
3. Direttiva Allow
Usata per sovrascrivere una regola Disallow e consentire l’accesso a pagine o file specifici.
Esempio:
User-agent: *
Allow: /public/file.pdf
Disallow: /public/
Qui, tutti i motori di ricerca possono accedere a /public/file.pdf ma non possono accedere al resto della directory /public/.
4. Playbook dei parametri (copia & incolla)
# Blocca parametri comuni (distinzione tra maiuscole/minuscole) User-agent: * Disallow: *s=* # ricerca interna Disallow: *sortby=* Disallow: *color=* Disallow: *price=*
Attenzione: Il matching è case-sensitive (RFC 9309). “s=” ≠ “S=”.
Funzionalità avanzate di Robots.txt
Il file robots.txt offre funzionalità avanzate per dare ai proprietari del sito un maggiore controllo su come i motori di ricerca e i crawler interagiscono con i loro contenuti.
4. Uso dei caratteri jolly (*)
Un carattere jolly (*) può essere utilizzato per far corrispondere più URL.
Esempio:
User-agent: *
Disallow: *?
Questo blocca i motori di ricerca dalla scansione di qualsiasi URL che contenga un punto interrogativo (?), comune nelle pagine dinamiche.
5. Uso del simbolo di fine URL ($)
Il simbolo del dollaro ($) assicura che vengano bloccate solo le URL che terminano con una specifica estensione.
Esempio:
User-agent: *
Disallow: *.php$
Questo blocca tutte le URL che terminano con .php, ma non quelle con parametri come page.php?lang=en.
Ecco un esempio di file robots.txt, che fornisce istruzioni ai web crawler (noti anche come bot o spider) su quali pagine o directory possono visitare o dovrebbero evitare sul sito.
Cosa fare: Mantieni scansionabili CSS/JS necessari al rendering.
Cosa non fare: Non bloccare in blocco
/wp-content/ o le risorse del tema; può danneggiare il rendering e il posizionamento.Spec & documenti: RFC 9309 • Guida robots.txt di Google

Ecco una spiegazione delle principali componenti di questo file:
Regola generale per tutti i crawler:
- La riga User-agent: * indica che le regole successive si applicano a tutti i web crawler, salvo diversa indicazione.
Posizione della Sitemap:
- La riga
Sitemap: https://www.mysite.com/sitemap_index.xmlfornisce il percorso della sitemap, che aiuta i motori di ricerca a trovare e indicizzare tutte le pagine importanti del sito.
Disallow per directory sensibili:
- Diverse direttive
Disallowsono utilizzate per impedire ai bot di scansionare parti del sito sensibili o irrilevanti per i motori di ricerca.
Allow per i file essenziali al rendering:
- Le direttive
Allowassicurano che i bot possano comunque accedere alle risorse importanti necessarie per il corretto rendering del sito.
Perché è necessario un file Robots.txt?
Prima che un bot di un motore di ricerca come Googlebot o Bingbot esegua la scansione di una pagina, verifica innanzitutto la presenza di un file robots.txt. Se il file esiste, in genere il bot segue le istruzioni in esso contenute.
Un file robots.txt è uno strumento essenziale per la SEO, che offre controllo su come i motori di ricerca accedono alle diverse parti del tuo sito.
Tuttavia, è importante comprendere il suo funzionamento per evitare di bloccare involontariamente bot come Googlebot dall’eseguire la scansione dell’intero sito, con il rischio di non farlo apparire nei risultati di ricerca. Usato correttamente, un file robots.txt ti permette di:
- Bloccare l’accesso a sezioni specifiche del sito (ad es., ambienti di sviluppo o staging)
- Impedire che le pagine di ricerca interna vengano scansionate o indicizzate
- Indicare la posizione della/e sitemap
- Ottimizzare il crawl budget bloccando pagine di scarso valore (come login, thank you o carrello). Inoltre, implementare URL SEO-Friendly può migliorare la struttura del sito, facilitando una scansione efficiente.
- Impedire l’indicizzazione di determinati file (ad es., immagini, PDF)
Terminologia Robots.txt
Il file robots.txt segue un insieme di regole note come robots exclusion standard (o robots exclusion protocol).
In altre parole, è un metodo standard che consente ai proprietari di siti di indicare ai motori di ricerca e ad altri crawler quali parti del sito possono o non possono essere accessibili.
Come creare un file Robots.txt?
Creare un file robots.txt per il tuo sito è un processo semplice, anche se è facile commettere errori. Google offre una utile guida alla configurazione di un file robots.txt, che ti aiuterà a familiarizzare con il processo.
Puoi creare un file robots.txt con quasi qualunque editor di testo, come Notepad, TextEdit, vi o emacs. Evita però i word processor, che potrebbero salvare i file in formati proprietari e aggiungere caratteri indesiderati (come le virgolette tipografiche), causando problemi ai crawler.
Se richiesto, assicurati di salvare il file con codifica UTF-8.
Linee guida su formato e posizione:
- Il file deve chiamarsi robots.txt.
- Il tuo sito dovrebbe avere un solo file robots.txt.
- Il file robots.txt deve trovarsi alla radice del dominio a cui si applica. Per esempio, per gestire la scansione su https://www.mysite.com/, il file deve essere posizionato su https://www.mysite.com/robots.txt, non in una sottocartella come https://mysite.com/content/robots.txt. Se non sei sicuro di come accedere alla directory radice o hai bisogno di permessi speciali, contatta il tuo hosting. Se non puoi accedere alla root, usa metodi alternativi come i meta tag per il controllo.
- Un file robots.txt può trovarsi anche su un sottodominio (ad es., https://blog.mysite.com/robots.txt) o su una porta non standard (ad es., https://mysite.com:8080/robots.txt).
- Il file robots.txt si applica solo al protocollo, host e porta in cui è pubblicato. Per esempio, le regole in https://mysite.com/robots.txt si applicheranno solo a https://mysite.com/ e non a sottodomini come https://shop.mysite.com/ o a protocolli diversi come http://mysite.com/.
- Il file deve essere salvato come testo codificato UTF-8 (che include i caratteri ASCII). Google può ignorare caratteri al di fuori dell’intervallo UTF-8, rendendo inefficaci alcune regole.
Gestione centralizzata per siti multi-sottodominio
Per evitare la deriva, ospita un unico /robots.txt (ad es., su cdn.example.com) e imposta un 301 dal /robots.txt di ogni sottodominio a quel file. I motori di ricerca tratteranno il file reindirizzato come se fosse servito alla radice di quell’origine. Documenta proprietà e cadenza degli aggiornamenti.
Verifica dell’esistenza di un file Robots.txt
Se non sei sicuro che il tuo sito abbia un file robots.txt, controllare è semplice. Visita il dominio principale del sito e aggiungi “/robots.txt” alla fine dell’URL (ad es., www.tuosito.com/robots.txt). 
Se il file non appare, allora non è stato configurato. È un’ottima occasione per crearne uno per il tuo sito!
Controllo delle statistiche di scansione in Google Search Console
Questo metodo ti consente di verificare e risolvere correttamente i problemi del tuo file robots.txt utilizzando Google Search Console.
- Accedi a Google Search Console
- Seleziona il tuo sito web.
- Fai clic su “Impostazioni” → “Statistiche di scansione”.
- Cerca le richieste di recupero del robots.txt.
Se Google ha riscontrato problemi nel recupero del file robots.txt, qui vedrai errori o avvisi.
Diagnostica: valida prima di pubblicare
- GSC → Impostazioni → Statistiche di scansione: controlla i recuperi del robots e i picchi di richieste.
- Prova i pattern con un parser robots prima del deploy.
- Campiona i log del server: cerca
?s=,?sort=e hit all’honeypot. - Ricontrolla dopo ~24 h: Google può mettere in cache il robots.txt fino a 24 ore.
Note: Google elabora solo i primi ~500 KiB del robots.txt; i file troppo grandi vengono troncati. Crawl-delay non è supportato da Googlebot.
Sapevi che…
Uno studio ha analizzato i file robots.txt di molti siti e ha rilevato che la maggior parte li usa per controllare come i motori di ricerca e i bot accedono ai contenuti. Lo studio ha suddiviso i siti in 16 settori diversi per mostrare come le aziende gestiscono le regole di crawling.
📊 Dato chiave: Quasi il 80% degli esperti SEO controlla e aggiorna regolarmente i propri file robots.txt per migliorare la visibilità e il posizionamento nei risultati di ricerca.
Quali sono le Best Practice per creare un file Robots.txt?
Seguendo le best practice di robots.txt puoi gestire la scansione, prevenire l’indicizzazione di pagine non necessarie e ottimizzare la visibilità del tuo sito nei risultati di ricerca.
Decidi rapidamente: cosa bloccare e cosa consentire
| Tipo di URL | Esempio | Scansione? | Perché | Alternativa (noindex/canonical) |
|---|---|---|---|---|
| Ricerca interna | /?s=shoes | Bloccare | Spazi infiniti & pagine thin | — |
| Parametri a faccette | ?color=red&sortby=price | Di solito bloccare | Varianti duplicate/quasi duplicate | Canonicalizzare le faccette chiave |
| URL di azione | /add-to-cart | Bloccare | Non utile per la ricerca | — |
| Login / account | /myaccount/ | Bloccare le sottopagine | Aree private | — |
| JS di tracciamento | /assets/js/pixels.js | Bloccare | Risparmia risorse di scansione | — |
| CSS/JS critici | /theme/css/… | Consentire | Necessari al rendering | — |
| PDF (in massa) | /*.pdf$ | Spesso bloccare | Basso valore SEO | Header noindex se necessario |
- Mantieni il tuo robots.txt semplice e testalo per assicurarti che funzioni correttamente. Google offre strumenti gratuiti e, in Google Search Console (GSC), puoi eseguire controlli per monitorare lo stato di scansione e indicizzazione delle pagine.
- Se hai un sito piccolo e non devi bloccare contenuti dai risultati di ricerca, il file robots.txt serve principalmente a indicare la tua sitemap XML e consentire a tutti i bot di scansionare il sito.
- Per i siti WordPress, ci sono elementi predefiniti utili da escludere, come:
Disallow: /wp-admin/Disallow: /wp-content/uploads/$Allow: /wp-content/uploads/.*Allow: /wp-admin/admin-ajax.php
- Sii sempre cauto quando modifichi il robots.txt, perché una configurazione errata può bloccare accidentalmente il tuo sito o pagine chiave dai risultati di ricerca.
- Se il tuo sito è piccolo e non ha contenuti specifici da bloccare, robots.txt e sitemap spesso non sono critici. Per i siti con meno di qualche centinaio di migliaia di pagine, una sitemap può servire solo se la struttura del sito è poco organizzata.
- Non complicare eccessivamente il robots.txt—se non c’è un motivo specifico per bloccare alcune pagine, va bene mantenerlo minimale.
- Assicurati che le pagine importanti siano scansionabili mentre blocchi i contenuti che non aggiungono valore nei risultati di ricerca. È inoltre essenziale valutare regolarmente il valore dei contenuti SEO per dare priorità a ciò che va indicizzato.
- Non bloccare i file JavaScript e CSS, poiché sono essenziali per il rendering delle pagine.
- Controlla regolarmente il tuo robots.txt per assicurarti che nulla sia cambiato involontariamente.
- Usa la corretta capitalizzazione per nomi di directory, sottodirectory e file.
- Posiziona il file robots.txt nella directory radice del tuo sito affinché possa essere trovato facilmente.
- Il file robots.txt è sensibile alle maiuscole: deve chiamarsi esattamente “robots.txt” (senza varianti).
- Evita di usare robots.txt per nascondere informazioni private degli utenti, perché rimangono accessibili.
- Includi la posizione della tua sitemap nel file robots.txt.
- Ricontrolla di non bloccare contenuti o sezioni del sito che vuoi che i motori di ricerca scansionino.
Quali sono gli errori comuni da evitare in Robots.txt?
Quando crei e gestisci un file robots.txt, evita questi errori frequenti:
- Posizione errata del file – Il file deve essere posizionato nella directory radice (ad es.,
www.example.com/robots.txt). Se si trova altrove, i motori di ricerca non lo troveranno. - Formato del file non corretto – Usa un file di testo semplice con codifica UTF-8. Evita i word processor che aggiungono caratteri nascosti rendendo il file illeggibile.
- Regole troppo restrittive – Bloccare pagine importanti o intere directory può danneggiare la SEO impedendo l’indicizzazione di contenuti di valore.
- Mancanza di test – Prova regolarmente il tuo robots.txt con strumenti come il Tester robots.txt di Google per assicurarti che funzioni correttamente e non blocchi pagine essenziali.
- Ignorare il comportamento dei crawler – I diversi motori di ricerca seguono regole differenti. Assicurati che il file tenga conto del comportamento dei vari crawler.
- Non aggiornare il file – Man mano che il tuo sito cambia, aggiorna il robots.txt per evitare che regole obsolete blocchino contenuti importanti.
Evitando questi errori, farai in modo che i motori di ricerca scansionino correttamente il tuo sito, migliorando visibilità e prestazioni SEO.
Comprendere i limiti di un file Robots.txt
Il file robots.txt fornisce direttive ai motori di ricerca, ma non è una regola vincolante. In generale, i motori di ricerca rispettano le istruzioni, ma restano comunque facoltative, non obbligatorie.
Pagine che compaiono comunque nei risultati
Le pagine bloccate dal file robots.txt possono ancora apparire nei risultati se sono collegate da altre pagine scansionate. Per esempio, una pagina vietata dal robots.txt può essere mostrata se un’altra pagina indicizzata la linka. 
Per prevenire problemi di contenuti duplicati, considera l’uso degli URL canonici insieme alle direttive del robots.txt.
Robots.txt e link di affiliazione
Usa il file robots.txt per bloccare backlink di affiliazione indesiderati, ma non affidarti ad esso per impedire l’indicizzazione dei contenuti. Usa invece la direttiva “noindex” per evitare che certe pagine vengano indicizzate dai motori di ricerca.
Caching dei file Robots.txt
Google in genere mette in cache i robots.txt fino a 24 ore, quindi potrebbe volerci tempo prima che le modifiche siano recepite. Altri motori di ricerca possono avere pratiche di caching diverse; in generale evita di fare affidamento sul caching per aggiornamenti tempestivi.
Limite di dimensione del file Robots.txt
Google supporta una dimensione massima del file robots.txt di 500 kibibyte (512 kilobyte). Qualsiasi contenuto oltre questo limite può essere ignorato. I limiti per altri motori di ricerca non sono chiaramente definiti.
Pro tip
Puoi usare lo strumento Rimozioni di Google Search Console per nascondere temporaneamente queste URL dai risultati di ricerca. Tuttavia, le URL resteranno nascoste solo per un periodo limitato, quindi dovrai ripresentare la richiesta di rimozione ogni 180 giorni per mantenerle nascoste.

Usa un Robots.txt con Honeypot per rilevare bot malevoli
Molti pensano che robots.txt serva solo a controllare i motori di ricerca, ma può anche essere una trappola per i bot malevoli. Aggiungendo directory disallow fasulle, puoi catturare gli attori malevoli che ignorano le regole.
Che cos’è un Robots.txt con approccio Honeypot?
Invece di limitarti a bloccare aree legittime del tuo sito, puoi aggiungere directory fasulle (dette “honeypot”) nel tuo robots.txt. Queste directory non esistono realmente né contengono contenuti, ma aiutano a individuare i bot che ignorano le regole di crawling.
In condizioni normali, i crawler corretti non proveranno ad accedervi perché sono disallow. Ma i bot malevoli o curiosi spesso ignorano le regole del robots.txt o cercano specificamente directory nascoste.
Monitorando chi visita queste directory fasulle, puoi individuare i bot che:
- Ignorano le direttive del robots.txt (violando lo standard).
- Potrebbero fare scraping o cercare vulnerabilità sul tuo sito.
Come funziona?
Aggiungendo directory disallow fasulle nel robots.txt, puoi tracciare i bot che ignorano le regole.
Crea directory Disallow fittizie
Aggiungi righe come:
User-agent: *Disallow: /internal-config/Disallow: /admin-portal-v2/
Queste directory non esistono realmente e non contengono informazioni di valore.
Monitora i log di accesso
Nei log del server o in analytics, imposta un filtro/avviso per rilevare traffico che richiede queste directory o URL fasulli. Qualsiasi richiesta a /internal-config/ o /admin-portal-v2/ segnala tipicamente un bot che ignora il tuo robots.txt.
Risposta automatizzata
Se noti hit ripetuti dallo stesso IP o User-agent, puoi bloccare o limitare questi visitatori sospetti a livello di server o firewall.
Rotazione degli honeypot
Cambia o ruota periodicamente questi percorsi disallow fasulli per mettere alla prova i bot malevoli. La rotazione aiuta a individuare nuove ondate di bot che ignorano le regole del tuo robots.txt più recente.
Perché l’honeypot è efficace?
- Sistema di allerta precoce: saprai se i bot stanno analizzando il tuo sito alla ricerca di contenuti nascosti o vulnerabilità.
- Gestione raffinata dei bot: invece di un blocco IP ampio che potrebbe danneggiare crawler legittimi, prendi di mira solo gli IP che violano il tuo robots.txt.
- Overhead minimo: aggiungere voci al robots.txt è banale e analizzare i log per endpoint specifici è semplice.
Perché l’honeypot conta nelle best practice di Robots.txt?
Oltre a prevenire sovraccarichi accidentali dei crawler o a bloccare URL sensibili, robots.txt può diventare un livello di sicurezza di allerta precoce.
Questa tecnica è raramente menzionata nelle guide SEO o nella documentazione per sviluppatori, eppure è molto preziosa per i proprietari di siti che affrontano scraping, tentativi di hacking o furti di dati.
Come i crawler alimentati dall’AI interpretano Robots.txt e il suo impatto sulla SEO
I crawler web basati su AI, come GPTBot e ClaudeBot, sono sempre più utilizzati per raccogliere dati per l’addestramento dei modelli linguistici. Questi crawler interpretano il file robots.txt di un sito per determinare quali aree possono essere accessibili.
Il file robots.txt, situato nella directory radice del sito, contiene direttive che informano i crawler su quali parti del sito sono vietate. Per esempio, una direttiva come Disallow: /private/ dice ai crawler di non accedere alla directory /private/.
Tuttavia, non tutti i crawler di AI rispettano queste direttive. Alcuni possono ignorare il file robots.txt, portando a scraping non autorizzato. Questa non conformità può aumentare il carico sul server e causare potenziale uso improprio dei contenuti.
Per esempio, nel 2024, Freelancer.com ha riportato che il crawler di Anthropic ha effettuato 3,5 milioni di richieste in quattro ore, con impatto significativo sulle loro operazioni.
La crescente diffusione dei crawler di AI ha implicazioni rilevanti per la SEO. Le pratiche SEO tradizionali si concentrano sull’ottimizzazione dei contenuti per i crawler dei motori di ricerca che rispettano le direttive del robots.txt.
Tuttavia, se i crawler di AI ignorano queste direttive, potrebbero indicizzare e utilizzare contenuti che i proprietari del sito intendevano escludere, influenzando potenzialmente il posizionamento e il controllo dei contenuti.
Per mitigare questi problemi, i proprietari dei siti dovrebbero aggiornare regolarmente i loro robots.txt per specificare direttive per i crawler di AI noti. Inoltre, comprendere come funziona il sistema di ranking NavBoost di Google può aiutare a ottimizzare le strategie SEO concentrandosi su metriche di coinvolgimento degli utenti come CTR e dwell time, che influenzano la visibilità dei contenuti.
Esplora altre guide SEO
- Inserzione gratuita su Yahoo: Elenca gratis la tua attività su Yahoo
- Rivendere Local SEO: Migliora i ranking, genera traffico, domina le mappe locali!
- Strumenti SEO automatizzati: Snellisci insight, automatizza report, ottimizza i contenuti con l’AI.
- Estensione DA PA Checker: Verifica l’autorità di un sito con facilità.
- Local SEO per ristoranti: Aumenta la visibilità, porta clienti.
FAQ
Come ottimizzare un file Robots.txt?
Cosa dovrebbe includere Robots.txt?
Quando dovresti usare un file Robots.txt?
Cosa significa Robots.txt Disallow All?
Posso usare Robots.txt per mettere noindex alle pagine?
Come controllare il file Robots.txt di un altro sito?
Conclusione
Un file robots.txt ben ottimizzato è uno strumento potente per gestire i crawler dei motori di ricerca e garantire un’indicizzazione efficiente del tuo sito. Seguendo le best practice, puoi controllare quali pagine vengono scansionate, ridurre il carico sul server e migliorare le prestazioni SEO.
Rivedendo e aggiornando regolarmente il file e attenendoti alle best practice, potrai mantenerne l’efficacia man mano che il tuo sito evolve. Con una configurazione corretta, il robots.txt può svolgere un ruolo cruciale nel migliorare la visibilità del tuo sito e nel prevenire l’indicizzazione di contenuti non necessari.
Rimani al passo consultando le tendenze SEO nel 2025 per anticipare come l’evoluzione degli algoritmi di ricerca potrebbe influenzare le pratiche legate al robots.txt.