Il file robots.txt rappresenta uno dei modi più efficaci per comunicare con i crawler dei motori di ricerca e
indicare quali pagine devono essere scansionate. Vediamo insieme come funziona questo strumento e
come utilizzarlo al meglio nell'ambito della propria strategia SEO.
Per rendere possibile l'
indicizzazione dei siti web, i motori di ricerca fanno utilizzo di
crawler che si
occupano di
scansionare i siti web e di
rilevarne i contenuti. Per questo motivo, soprattutto se intendi
favorire l'indicizzazione di un nuovo sito web, è opportuno realizzare al meglio il file
"robots.txt"
relativo al dominio. In questo articolo ti spiegheremo
cos'è il file "robots.txt" e
come realizzarlo al meglio
in modo da consentire l'indicizzazione delle pagine giuste del tuo sito web.
File Robots.txt: che cos'è
Il file
"robots.txt", anche detto
"protocollo di esclusione robot", è un semplice
file di testo, inserito
nella cartella "root" (radice) del sito web, che ha la funzione di
indicare ai crawler di indicizzazione che
visitano il sito quali sono le regole stabilite da chi gestisce il sito web, e in particolare le regole
sull'esclusione di pagine dall'indicizzazione.
Si tratta di un
file di testo pubblico, posizionato all'indirizzo
"www.nomesitoweb.it/robots.txt", che
svolge un ruolo fondamentale nella comunicazione con i motori di ricerca. Gli spider di Google, ad
esempio, lo leggono in maniera preventiva per
analizzare meglio il contenuto del tuo sito web ed
evitare di scansionare le pagine che gli indichi.
Considerato il suo ruolo chiave, il file
"robots.txt" è (insieme alla
"sitemap.xml", agli
URL canonical
e ai
metadati) uno degli
strumenti da conoscere assolutamente per
ottimizzare il tuo sito web per i motori di ricerca.
Come funziona il file robots.txt
Come abbiamo appena detto,
il file "robots.txt" serve a direzionare l'attenzione del crawler nei
confronti di alcune pagine e non di altre. Per fare ciò, è necessario che contenga
una serie di comandi
per il crawler che indichino con precisione su quali cartelle deve entrare e quali pagine deve scansionare.
O meglio:
quali pagine non deve scansionare.
Come suggerisce il nome
"protocollo di esclusione robot", il file
"robots.txt" è pensato principalmente
per
comunicare al crawler i contenuti da non scansionare, e non il contrario. Ne deriva che
se vuoi che tutti i contenuti del tuo sito siano scansionati, non è affatto necessario che il file sia presente.
Ma andiamo con ordine.
Il file robots.txt è obbligatorio?
L'
inserimento del file "robots.txt" nel tuo sito web è
altamente consigliata, ma
non obbligatoria. Nel
caso di Googlebot, ad esempio, il crawler, in fase di scansione, cercherà come prima cosa di recuperare il
file "robots.txt" ma,
nel caso in cui quest'ultimo non sia presente, procederà comunque con la
normale scansione (ed eventuale indicizzazione) del sito.
Come abbiamo detto,
il file robots serve principalmente a comunicare al crawler gli URL verso cui
non effettuare la scansione. Il suo utilizzo, tuttavia, è
consigliato in ogni caso, perché
può contenere
delle informazioni ulteriori per il crawler che vedremo nei prossimi paragrafi.
Come scrivere correttamente un file robots.txt
Quando parliamo di
file "robots.txt", non ci riferiamo a nient'altro che a
un piccolo file di testo, di
solito creato con strumenti quali "notepad", che viene
inserito nella cartella "root" del sito web. Come
ormai avrai capito,
il file si riferisce all'intero sito web, e non a un sotto-dominio. Pertanto,
è necessario
che il file si trovi all'interno della directory principale del sito web, piuttosto che in una sotto-directory.
Se si vuole che il file robots sia funzionante e che interagisca con il crawler nel modo giusto, è altresì
necessario
rispettare una sintassi specifica, utilizzando i
comandi giusti e inserendo un
comando per riga.
Di seguito trovate un
esempio di ciò che può essere contenuto in un normale file "robots":
User-Agent: *
Disallow:
User Agent
Entriamo ora nello specifico dei
comandi da utilizzare nel file. Il primo comando che vediamo è
"User-Agent".
Questo comando
fa riferimento alla tipologia di crawler cui si rivolgono i comandi
successivi, e pertanto può essere seguito da "googlebot" o altri crawler.
Nell'esempio è seguito dall'
asterisco ("*") che, come vedremo più avanti, è una sorta di
carattere "jolly",
e in questo caso
indica che ci si sta rivolgendo a tutte le tipologie di spider (GoogleBot, BingBot eccetera).
Il comando "Disallow"
Una volta indicato il tipo di crawler a cui ci si rivolge, nel file robots possiamo inserire
una serie di direttive.
La più importante è sicuramente
"Disallow", che
indica al crawler che si vuole impedire
l'accesso a una specifica risorsa (file, pagina o cartella) contenuta nel nostro sito.
Ad esempio, se vogliamo
impedire al crawler di scansionare una pagina specifica, il comando sarà:
Disallow: /pagina-da-non-scansionare
Se vogliamo, invece,
impedire la scansione di una serie di pagine o contenuti presenti in una cartella,
utilizzeremo la direttiva seguente:
Disallow: /cartella-da-non-scansionare/
Bisogna fare particolare attenzione:
se dopo l'indicazione "Disallow:" mettiamo uno slash ("/"),
stiamo impedendo allo spider l'accesso all'intero sito e ne stiamo pregiudicando, di fatto, l'indicizzazione.
Pertanto, "Disallow: /" andrebbe utilizzato solamente nel caso in cui si sia
preventivamente inserito uno specifico "User-Agent" (e non l'asterisco).
"Il comando "Allow"
Il comando
"Allow" deve essere
utilizzato solo in alcuni casi, e
non in tutte le pagine che vogliamo
siano scansionate. Infatti, "Allow" serve a consentire la scansione di pagine che sono comprese in
un'altra istruzione "Disallow:" presente nello stesso file robots.txt. In sostanza, perciò, serve solo a
inserire delle eccezioni a una direttiva disallow, come nell'esempio seguente:
Disallow: /cartella-segreta/
Allow: /cartella-segreta/file-non-segreto.html
Nell'esempio,
tutti i file contenuti nella "cartella-segreta" saranno esclusi dalla scansione, a
eccezione del "file-non-segreto".
Altri comandi
Come abbiamo accennato,
nel file robots possono essere contenute anche altre istruzioni, come ad
esempio
"sitemap:", che
indica al crawler dove trovare la sitemap del sito web, e
"crawl-delay:".
Quest'ultima, in particolare è una
direttiva che indica al bot di attendere un tempo (stabilito in secondi)
per evitare il sovraccarico del server. Si tratta di un
utilizzo sconsigliato, in quanto i siti web da
indicizzare dovrebbero essere sempre ospitati da server che funzionano in maniera efficiente, senza
l'utilizzo di questi espedienti temporanei.
Utilizzare i caratteri speciali
All'interno del file
"robots.txt", inoltre, possono essere utilizzati
una serie di caratteri speciali. Il primo
lo abbiamo già visto: l'
asterisco (*). Si tratta di una sorta di
carattere jolly che può indicare diversi
elementi, come nell'esempio che segue:
Disallow: /scarpe/*?
In questo caso,
non verrà scansionato nessun url presente nella cartella scarpe che abbia al suo
interno anche un punto interrogativo.
Un altro carattere speciale utile è il segno del
dollaro ("$"), che indica la
fine dell'url. Per cui
nell'esempio seguente
Disallow: /*.pdf$
saranno
esclusi dalla scansione tutti i file con estensione ".pdf" contenuti nel sito.
Come bloccare la scansione delle singole pagine?
Un file robots dovrebbe essre
utilizzato solo per escludere la scansione di determinati contenuti
nell'eventualità in cui quest'ultima causi un
sovraccarico del server, oppure nel caso di
serie di pagine duplicate,
che non devono essere indicizzate, come ad esempio quelle che risultano da un filtro di ricerca
nel catalogo dei tuoi prodotti. A differenza di quanto si pensa comunemente, perciò,
non dovrebbe essere
utilizzata per impedire l'indicizzazione di un singolo url.
Per chiedere a Google o ad altri motori di ricerca di non indicizzare una singola pagina, è meglio far
utilizzo di
meta tag "noindex", da inserire nel tag della pagina, o di
"X-Robots-Tag" nell'intestazione HTTP.
Le pagine che contengono queste istruzioni, tuttavia,
devono in primis poter essere sottoposte a scansione,
per cui non devono essere inserite tra i "Disallow" del file "robots.txt".
Il problema degli
url duplicati può essere risolto, inoltre, anche attraverso l'utilizzo dei
rel canonical.
L'importanza di creare correttamente il file robots.txt
Ora che sai
cos'è il file robots.txt e
come realizzarlo per comunicare con il crawler di Google,
ricordati che è sempre utile che il file sia ottimizzato in modo da migliorare il proprio posizionamento sui
motori di ricerca. Uno strumento molto utile per
verificare il file robots del tuo sito web è il
tool apposito integrato in Search Console raggiungibile a
questo indirizzo.
Ricordati di rimanere sempre aggiornato sui
più recenti aggiornamenti dell'algoritmo di Google, per
non perdere l'opportunità di essere posizionato al meglio sui motori di ricerca. Per aiutarti, abbiamo
parlato di recente dell'aggiornamento di
Google Page Experience.
Se vuoi approfondire ancora di più l'argomento
SEO, inoltre, in
questo articolo abbiamo parlato di
come ottimizzare un articolo per i motori di ricerca.
Se hai bisogno, la nostra
agenzia di web marketing è a tua disposizione per una
consulenza senza impegno e per un
check-up SEO gratuito del tuo sito.
Contattaci.