Come utilizzare il file robots.txt per migliorare la scansione dei motori di ricerca sul tuo sito?

Cos’è e come funziona il robots.txt

Tra le diverse attenzioni che devi prestare al sito web c’è quella dedicata al robots.txt, un elemento decisivo nella struttura della tua opera. Perché spesso ti invitano a improvvisare, a creare un sito web da soli. Ma poi ci sono una serie di step che devono essere curati.

E, soprattutto, gestiti per evitare problemi. O magari per sfruttare al massimo quello che hai. Una risorsa che spaventa i meno avvezzi all’argomento, ma che i webmaster conoscono bene: a cosa serve? Come deve presentarsi? Un passo alla volta.

Cerchiamo insieme una buona definizione di robots.txt? Allora, con questo termine si intende un file di testo, puro e semplice, da inserire nella cartella root (radice) del proprio sito web. Ecco perché individuare il file in questione basta seguire l’indirizzo www.miodominio.it/robots.txt.

Una buona sintesi sul tema: il robots.txt viene utilizzato per comunicare con i motori di ricerca. Mentre i meta tag Google suggeriscono informazioni rispetto alla singola pagina, questo documento viene letto dal crawler per organizzare al meglio la scansione del contenuto. In che modo? Con quali principi?

Come funziona il robots.txt di un sito

Con il robots.txt puoi dare direttive sull’accesso rispetto a determinate cartelle o risorse. Per la precisione puoi limitare l’attenzione del crawler, lo stesso Google suggerisce che le istruzioni inserite in questo file non sono obbligatorie per tutti e in ogni situazione:

I comandi del file non sono regole che tutti i crawler devono seguire, ma sono piuttosto linee guida per l’accesso ai siti. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file ma non è detto che altri crawler facciano altrettanto.

Ma qual è l’applicazione concreta di questo strumento? Attraverso le indicazioni lasciate nel robots.txt, ad esempio, puoi suggerire a uno spider (non per forza a tutti, magari solo a quello di Google) di non entrare in una determinata cartella. O di non indicizzare una pagina. Ti serve un esempio chiaro di robots.txt? Perfetto, leggi il prossimo paragrafo.

Esempio di robots.txt: come si scrive

Questo è il passaggio chiave per chi deve iniziare a lavorare e vuole creare un robots.txt: come si scrive? Quali sono i comandi per interagire con gli spider che monitorano il sito web? Semplice, c’è una sintassi condivisa da rispettare in ogni caso.

User-Agent: *
Disallow:

Ecco un esempio di robots.txt. Con user agent si intende lo spider preso in considerazione, e quando vedi l’asterisco si intende che il comando è rivolto a tutti. Con disallow si intende non consentire l’accesso: questo punto può essere ripetuto ogni volta che si vuole limitare l’accesso a una risorsa. Ecco un’altra combinazione molto comune.

User-agent: *
Disallow: /cartella_con_file_privati/
Disallow: /cartella_pubblica/file_privato.html
User-agent: SpiderInutile
Disallow: /

In questo caso il robots.txt è più articolato, ma cosa indica? Nella prima parte suggerisce a tutti gli spider di indicizzare il sito, tranne la cartella con i file privati che potrebbero essere quelli inclusi in un’area privata e dedicata solo a chi si iscrive alla newsletter. Poi, in una cartella qualsiasi, c’è un file che deve rimanere non pubblico, quindi lo escludo.

Attenzione ai dettagli (asterisco e slash)

Nella seconda parte del robots.txt do un’informazione importante: comunico a quello spider, e solo a quello, di escludere dall’indicizzazione l’intero sito. Attenzione: se al posto del nome spider inserisco l’asterisco comunico a tutti i crawler di ignorare il mio sito. Quindi su Google il mio lavoro verrà ignorato. Ecco la situazione tipica:

User-agent: *
Disallow: /

In questo caso sto comunicando la completa esclusione del sito web a qualsiasi spider. Spesso chi muove i primi passi in questo settore non è a conoscenza del suddetto passaggio e si ritrova con un sito non visibile e non indicizzato a causa di un semplice slash sbagliato. In questi casi su Google uscirà una dicitura: “una descrizione per questo risultato non è disponibile a causa del file robots.txt di questo sito”.

Generatori di robots.txt e tool per verificare

Ci sono diversi tool per verificare il robots.txt. Però quello che suggerisco è nella Search Console di Google. Qui puoi trovare uno strumento che modifica e verifica il file, evidenzia errori, ti consente di controllare eventuali blocchi rispetto allo spider che preferisci.

RICAPITOLANDO

La funzione principale del file robots.txt è quella di comunicare ai bot di scansione dei motori di ricerca quali file indicizzare e quali no. Spesso si utilizza per specificare i file da non indicizzare sui motori di ricerca.

Per indicare ai motori di ricerca di indicizzare qualsiasi contenuto presente sul sito web, puoi aggiungere queste righe nel file robots.txt:

User-agent: *
Disallow:

Al contrario, se desideri che il contenuto di questo sito non venga aggiunto ai motori di ricerca, puoi utilizzare questo codice:

User-agent: *
Disallow: /

Per ottenere risultati più specifici, è necessario approfondire la sintassi di questo file. La dicitura “User-agent:” specifica per quali bots saranno valide queste impostazioni. Puoi utilizzare il valore “*” per fare in modo che la regola sia valida per tutti i bot di ricerca, oppure puoi specificare il nome del bot per cui impostare le condizioni.

La parte “Disallow:” indica i file e le cartelle che non devono essere indicizzate dai motori di ricerca. Ciascuna cartella o file su cui agire devono essere indicati su una nuova riga. Ad esempio, se desideri non indicizzare le cartelle “private” e “security” contenute in public_html dovrai specificare:

User-agent: *
Disallow: /private
Disallow: /security

La direttiva “Disallow:” utilizza la directory ‘root’ del tuo spazio hosting come base di partenza, pertanto il path da indicare dovrà essere /sample.txt e non  /home/user/public_html/sample.txt.

Come bloccare i bot di ricerca che tentano di accedere al tuo sito?

 

Per bloccare tutti i bot dall’accedere al tuo sito dovresti creare un file robots.txt con il contenuto seguente:

User-agent: *
Disallow: /

Per impedire a tutti i bot di accedere a una cartella specifica, applica il codice come segue:

User-agent: *
Disallow: /folder/

Sostituisci folder con il nome effettivo della tua cartella.

Come bloccare l’accesso a tutti i file nascosti nel tuo account?

 

È possibile aggiungere le seguenti righe all’interno del file .htaccess nella cartella public_html:

RewriteEngine on
RewriteRule (^.|/.) - [F]

Dopo aver aggiunto queste regole, chiunque cerca di accedere ai file nascosti o alle cartelle riceverà un errore 403 Forbidden.

 

Come bloccare l’accesso ad una cartella specifica?

Per bloccare l’accesso a una specifica cartella dell’account, è necessario aggiungere questa regola al file .htaccess in quella cartella:

Deny from all

Per approfondire, scrivimi in privato!