I blogger più esperti sanno sicuramente cos'è robots.txt e perché hai bisogno di questo file. Ma pochi autori si affrettano immediatamente a creare un file robots.txt dopo aver installato un blog su WordPress.
Robots.txt è un file di testo che viene caricato nella directory principale del tuo sito e contiene istruzioni per i crawler. Lo scopo principale del suo utilizzo è quello di vietare l'indicizzazione delle singole pagine e sezioni del sito. Tuttavia, utilizzando robots.txt, puoi anche specificare il mirror del dominio corretto, prescrivere il percorso alla mappa del sito e simili.
La maggior parte dei motori di ricerca moderni ha imparato a navigare bene nel popolare CMS e di solito non cerca di indicizzare contenuti che non sono destinati a questo. Ad esempio, Google non indicizzerà l'area di amministrazione del tuo blog WordPress anche se non la specifichi direttamente in robots.txt. Tuttavia, in alcuni casi, l'uso di divieti diretti può ancora essere utile. E stiamo parlando principalmente del divieto di duplicare i contenuti.
Alcuni webmaster arrivano al punto di vietare l'indicizzazione delle pagine di categoria e tag, poiché il loro contenuto duplica parzialmente il contenuto della pagina principale. Ma la maggior parte si limita a vietare le pagine trackback e feed, che duplicano completamente il contenuto degli articoli e non sono affatto destinate ai motori di ricerca. Tale precauzione non solo renderà "più puliti" i risultati del sito, ma ti salverà anche da eventuali filtri di ricerca, soprattutto dopo l'introduzione del nuovo algoritmo di Google Panda.
Ecco le direttive consigliate per un file robots.txt (funzionerà per quasi tutti i blog WordPress):
Agente utente: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / wp-admin Disallow: / wp-includes Disallow: /wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / temi Disallow: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed /
Nota che in robots.txt le cartelle amministrative wp-admin e wp-includes sono completamente chiuse per l'indicizzazione. La cartella wp-content è chiusa solo parzialmente, poiché contiene la directory degli upload, che contiene tutte le immagini del tuo blog che dovrebbero essere indicizzate.
Tutto quello che devi fare è copiare le direttive dal codice sopra (nota che ogni direttiva deve essere scritta su una nuova riga), salvarle in un file di testo chiamato robots.txt e caricarle nella directory principale del tuo sito.
Puoi sempre verificare se robots.txt funziona correttamente tramite le interfacce di Google Webmaster Tools e Yandex Webmaster.