Parfois, c’est tout le contraire que nous voulons. Nous désirons que nos pages ne soient pas indexées.
Pour cela, il est toujours possible de protéger le contenu avec un mot de passe, mais cela restreint aussi l’accès à vos utilisateurs.
Deux solutions plus élégantes :
- L’utilisation de balise meta
- L’utilisation du fichier robots.txt
La balise méta
Exemple :
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
L’attribut NAME doit être « ROBOTS ».
L’attribut CONTENT peut prendre les valeurs suivantes : "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW"
ATTENTION : Cette balise devrait se retrouver sur TOUTES les pages à ne pas indexer avec les valeurs NOINDEX et NOFOLLOW et pas seulement sur votre page index. Pourquoi ? Une URL d’un autre site pourrait pointer vers une page autre que votre index et le « robot » commencerait donc l’indexation de votre site.
Le fichier robots.txt
Ce fichier, habituellement déposé à la racine du serveur, permet d’énumérer les dossiers à ne pas indexer. Avant qu’un robot commence son indexation, il vérifie l’existence de ce fichier. Si le fichier existe, il est lu est les dossiers à ne pas indexer sont pris en considération.
ATTENTION : il n’est pas garanti que tous les robots respecteront vos règles, il en existe des rebelles!
ATTENTION : le nom du fichier doit respecter la casse : tout en minuscules.
Exemple 1 : exclusion des dossiers /tmp/ et /junk/ pour tous les robots
User-agent: *
Disallow: /tmp/
Disallow: /junk/
Exemple 2 : exclusion des dossiers /tmp/ et /junk/ pour google seulement
User-agent: Google
Disallow: /tmp/
Disallow: /junk/
ATTENTION : si vous voulez garder un dossier secret, pensez-y deux fois avant de l’inscrire dans un fichier robots.txt puisque ce fichier est ouvert à tous en lecture !
- http://www.cegep-ste-foy.qc.ca/robots.txt
Validation du fichier robots.txt
Ce fichier peut être validé avec un « Robots checker » comme celui-ci :
- http://tool.motoricerca.info/robots-checker.phtml
Liste des robots
Voir la liste des robots (plus de 300 !)
- http://www.robotstxt.org/db.html