Le fichier robots.txt est une fichier destiné aux robots des moteurs de recherche qui vont scanner votre site afin de les renseigner sur vos désires concernant l’indexation de vos pages.
Écriture du fichier
Votre fichier robots.txt est un simple fichier texte contenant deux types de commandes avec des paramètres derrières sachant qu’une ligne ne doit être vide.
User-Agent : Permet d’indiquer les robots des moteurs de recherche concerné par les règles qui suivront la ligne en dessous. En mettant * tous les moteurs de recherche seront identifié.
Disallow : Permet d’indiquer les pages à exclure du référencement. Cela peut être pour un dossier et ses sous dossiers, une liste de fichier ou tout le site grâce au caractère /. Dans tous les cas, le chemin commence forcément par / pour indiquer la racine.
Exemples
Interdire toutes les pages à tous les moteurs de recherche
User-Agent: *
Disallow: /
Autoriser l’indexation de toutes les pages par tous les moteurs de recherche
User-Agent: *
Disallow:
Exclusion d’un repertoire et de ses sous dossiers pour tous les robots
User-Agent: *
Disallow: /chemin/répertoire/
Exclusion d’une page pour tous les robots
User-Agent: *
Disallow: /chemin/vers/page.html
Exclusion de plusieurs pages par tous les robots
User-Agent: *
Disallow: /chemin/vers/page1.html
Disallow: /chemin/vers/page2.html
Disallow: /chemin/vers/page3.html
Autoriser seulement un Robot à indexer votre site et interdire à tous les autres
User-Agent: NomRobot
Disallow:
User-Agent: *
Disallow: /
Autoriser tous les Robots sauf un à indexer tout votre site
User-Agent: NomRobot
Disallow: /
User-Agent: *
Disallow:
Liste User-Agents
Tous les moteurs de recherche donnent un nom à leurs robots et ce nom n’est pas forcément en rapport avec le nom du moteur de recherche. Voici une liste des cinq principaux moteurs de recherche.
Google : Googlebot
Yahoo! : Slurp
Exalead : Exabot
Bing : MSNBot
Baidu : Baiduspider