Come Comporre Un File Txt Di Robot

Sommario:

Come Comporre Un File Txt Di Robot
Come Comporre Un File Txt Di Robot

Video: Come Comporre Un File Txt Di Robot

Video: Come Comporre Un File Txt Di Robot
Video: [Tutorial] Crawler motori di ricerca - file robots.txt 2024, Dicembre
Anonim

Uno degli strumenti per gestire l'indicizzazione dei siti da parte dei motori di ricerca è il file robots.txt. Viene utilizzato principalmente per impedire a tutti o solo a determinati robot di scaricare il contenuto di determinati gruppi di pagine. Ciò consente di eliminare la "spazzatura" nei risultati dei motori di ricerca e, in alcuni casi, migliorare notevolmente il posizionamento della risorsa. È importante disporre del file robots.txt corretto per una corretta applicazione.

Come comporre un file txt di robot
Come comporre un file txt di robot

Necessario

editor di testo

Istruzioni

Passo 1

Crea un elenco di robot per i quali verranno impostate regole di esclusione speciali o verranno utilizzate direttive dello standard esteso robots.txt, nonché direttive non standard e specifiche (estensioni di un motore di ricerca specifico). Inserisci in questa lista i valori dei campi User-Agent delle intestazioni delle richieste HTTP inviate dai robot selezionati al server del sito. I nomi dei robot si possono trovare anche nelle sezioni di riferimento dei siti dei motori di ricerca.

Passo 2

Selezionare i gruppi di URL delle risorse del sito a cui negare l'accesso a ciascuno dei robot nell'elenco compilato nel primo passaggio. Eseguire la stessa operazione per tutti gli altri robot (un insieme indefinito di robot di indicizzazione). In altre parole, il risultato dovrebbe essere più elenchi contenenti collegamenti a sezioni del sito, gruppi di pagine o fonti di contenuti multimediali di cui è vietata l'indicizzazione. Ogni elenco deve corrispondere a un robot diverso. Dovrebbe esserci anche un elenco di URL vietati per tutti gli altri bot. Crea elenchi basati sul confronto della struttura logica del sito con la posizione fisica dei dati sul server, nonché raggruppando gli URL delle pagine secondo loro caratteristiche funzionali. Ad esempio, è possibile includere negli elenchi di negazione i contenuti di eventuali cataloghi di servizi (raggruppati per posizione) o tutte le pagine del profilo utente (raggruppate per scopo).

Passaggio 3

Seleziona i segni URL per ciascuna delle risorse contenute negli elenchi compilati nel secondo passaggio. Quando si elaborano elenchi di esclusione per i robot che utilizzano solo direttive robots.txt standard e robot non definiti, evidenziare le parti URL univoche della lunghezza massima. Per i restanti set di indirizzi, puoi creare modelli in conformità con le specifiche di motori di ricerca specifici.

Passaggio 4

Crea un file robots.txt. Aggiungi gruppi di direttive, ognuna delle quali corrisponde a una serie di regole di divieto per un robot specifico, il cui elenco è stato compilato nel primo passaggio. Quest'ultimo dovrebbe essere seguito da un gruppo di direttive per tutti gli altri robot. Gruppi di regole separati con una singola riga vuota. Ogni set di regole deve iniziare con una direttiva User-agent che identifica il robot, seguita da una direttiva Disallow, che vieta l'indicizzazione dei gruppi di URL. Realizzare le righe ottenute nel terzo passaggio con i valori delle direttive Disallow. Separare le direttive e il loro significato con i due punti Considera il seguente esempio: User-agent: YandexDisallow: /temp/data/images/User-agent: * Disallow: /temp/data/ Questo insieme di direttive istruisce il robot Motore di ricerca Yandex per non indicizzare l'URL che contiene la sottostringa/temp/data/images/. Impedisce inoltre a tutti gli altri robot di indicizzare gli URL contenenti /temp/data/.

Passaggio 5

Integra robots.txt con direttive standard estese o direttive specifiche per i motori di ricerca. Esempi di tali direttive sono: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.

Consigliato: