Critères
de pertinence des moteurs de recherche
L'indexation par les moteurs
Contrairement aux annuaires où chaque site est indexé
simplement par une fiche descriptive remplie par un éditeur
humain, les moteurs de recherche fonctionnent de manière complètement
automatisée et sont capables d'indexer pour un même site
plusieurs pages ou la totalité des pages en fonction d'une
analyse statistique de leur contenu.
Ils utilisent des logiciels nommés spiders, robots ou crawlers
qui vont visiter la page web soumise, analyser le code source, et
enregistrer toutes les informations sur le contenu de la page dans
une base de données.
Les moteurs n'enregistrent pas directement les pages dans leur base
de données, mais construisent une fiche très détaillée
de chacune de ces pages dont le contenu sera interprétable
ensuite par le logiciel chargé du classement des résultats.
Ce sont ces fiches détaillées qui sont enregistrées
dans la base de données.
Le classement des résultats
Le classement des résultats se fait grâce à un
algorithme spécifique à chaque moteur, c'est à
dire une méthode basée à la fois sur des critères
logiques et mathématiques lui permettant de donner un score
à un couple page-requête. Si un moteur renvoie 300 000
résultats pour une requête, la liste des résultats
est classée du premier au 300 000e par cette méthode
de scoring.
Un premier tri est réalisé par le biais de critères
éliminatoires qui permettent au moteur de déterminer
si une page doit être renvoyée ou pas dans la liste des
résultats.
Par exemple la langue, lorsque le moteur utilise des filtres linguistiques.
Le tri final est le résultat d'une combinaison de critères
qui va permettre d'attribuer à chaque page un score par rapport
à la requête recherchée. Chacun de ces critères
a pour objectif de mesurer la pertinence d'une page pour une requête.
La plupart des critères d'évaluation de la pertinence
sont liés au contenu de la page, mais certains critères
sont liés au site dans son ensemble.
Critères liés au contenu de la page ("in-page")
:
- contenu du titre
- fréquence des mots-clés
- indice de densité
- contenu de l'URL
- proximité et ordre des mots-clés
- taille et styles de polices
- présence dans la Meta Keywords
- poids de la page en Ko
- date de création / modification
Critères liés au site ("off-page")
:
- nom de domaine
- popularité
- thème du site
- taille du site
- indice de clic