Utilisation du fichier Robots.txt


Le fichier Robots.txt est un standard reconnu par la plupart des moteurs de recherche qui permet de leur indiquer une liste de documents ou de répertoires à ne pas indexer.

Ce fichier est utile, par exemple :

  • Pour restreindre les points d’entrée vers le site depuis les pages de résultats des moteurs de recherche. En effet, dans certains cas, laisser indexables certaines pages internes d’un site ne sera pas judicieux pour des raisons de communication ou d’ergonomie de la navigation.
  • Pour empêcher l’indexation de documents non-publics, mais laissés en accès libre. (par exemple, des fichiers logs)
  • Pour empêcher l’indexation de pages dont le contenu ne présente pas d’intérêt du point de vue du référencement
Le fichier Robots.txt est toujours placé à la racine du site.

Exemple : www.monsite.com/robots.txt

 

Syntaxe du fichier Robots.txt

C’est un simple fichier texte, constitué d’une liste d’instructions destinées aux moteurs.

Il n’existe que deux commandes qui soient reconnues par tous les moteurs.

La commande User-agent

Permet de s’adresser à un spider en particulier, ou bien à tous les spiders.

Chaque spider doit être appellé par son nom (par exemple, Slurp pour Inktomi, Googlebot pour Google, Scooter ou Mercator pour Altavista…)

Une liste assez complète des noms de spiders est disponible à cette adresse :

http://www.robotstxt.org/wc/active.html

Pour s’adresser en même temps à tous les moteurs de recherche, il suffit d’utiliser un *

La commande Disallow

Permet d’interdire à un moteur ou à tous les moteurs, un fichier précis ou un répertoire désignés par leurs urls relatives.

En l’absence d’interdiction, tout fichier présent sur un site web est considéré par défaut comme indexable.

 

Exemples :

User-agent: *

Disallow: /fichier.html

interdit à tous les moteurs la page fichier.html, située à la racine


User-agent: *

Disallow: /dossier/

interdit à tous les moteurs le répertoire /dossier


User-agent: Scooter

Disallow: /home.html

interdit à Altavista la page /home.html


User-agent: *

Disallow:

autorise tout le site à tous les moteurs


User-agent: *

Disallow: /

interdit tout le site à tous les moteurs


User-agent: *

Disallow:

User-agent: Slurp

Disallow: /

autorise tout le site à tous les moteurs, sauf Inktomi


Questions de sécurité

Il est préférable de ne jamais interdire par le fichier Robots.txt de fichiers ou répertoires pouvant avoir une nature confidentielle. En effet, ce fichier est lisible par n’importe quelle personne.

Un accès restreint par mot de passe empêche de toute façon les spiders d’atteindre un document.

Lien utile

La société Yooda propose un service gratuit d'analyse et d'édition de fichier robots.txt

 

Sommaire de la rubrique Optimisation