Utilisation
du fichier Robots.txt
Le fichier Robots.txt est un standard reconnu par la plupart des
moteurs de recherche qui permet de leur indiquer une liste de documents
ou de répertoires à ne pas indexer.
Ce fichier est utile, par exemple :
- Pour restreindre les points dentrée vers le site
depuis les pages de résultats des moteurs de recherche. En
effet, dans certains cas, laisser indexables certaines pages internes
dun site ne sera pas judicieux pour des raisons de communication
ou dergonomie de la navigation.
- Pour empêcher lindexation de documents non-publics,
mais laissés en accès libre. (par exemple, des fichiers
logs)
- Pour empêcher lindexation de pages dont le contenu
ne présente pas dintérêt du point de vue
du référencement
Le fichier Robots.txt est toujours placé à la racine du
site.
Exemple : www.monsite.com/robots.txt
Syntaxe du fichier Robots.txt
Cest un simple fichier texte, constitué dune liste
dinstructions destinées aux moteurs.
Il nexiste que deux commandes qui soient reconnues par tous
les moteurs.
La commande User-agent
Permet de sadresser à un spider en particulier, ou bien
à tous les spiders.
Chaque spider doit être appellé par son nom (par exemple,
Slurp pour Inktomi, Googlebot pour Google, Scooter ou Mercator pour
Altavista
)
Une liste assez complète des noms de spiders est disponible
à cette adresse :
http://www.robotstxt.org/wc/active.html
Pour sadresser en même temps à tous les moteurs
de recherche, il suffit dutiliser un *
La commande Disallow
Permet dinterdire à un moteur ou à tous les moteurs,
un fichier précis ou un répertoire désignés
par leurs urls relatives.
En labsence dinterdiction, tout fichier présent
sur un site web est considéré par défaut comme
indexable.
Exemples :
User-agent: *
Disallow: /fichier.html
interdit à tous les moteurs la page fichier.html, située
à la racine
User-agent: *
Disallow: /dossier/
interdit à tous les moteurs le répertoire /dossier
User-agent: Scooter
Disallow: /home.html
interdit à Altavista la page /home.html
User-agent: *
Disallow:
autorise tout le site à tous les moteurs
User-agent: *
Disallow: /
interdit tout le site à tous les moteurs
User-agent: *
Disallow:
User-agent: Slurp
Disallow: /
autorise tout le site à tous les moteurs, sauf Inktomi
Questions de sécurité
Il est préférable de ne jamais interdire par le fichier
Robots.txt de fichiers ou répertoires pouvant avoir une nature
confidentielle. En effet, ce fichier est lisible par nimporte
quelle personne.
Un accès restreint par mot de passe empêche de toute
façon les spiders datteindre un document.
Lien utile
La société Yooda propose un service
gratuit d'analyse et d'édition de fichier robots.txt