Quand on crée un site internet, on souhaite généralement générer du trafic. Pour cela, le propriétaire ou l’éditeur de la plateforme réalise diverses actions. Par exemple, il peut faire du netlinking, choisir les bons keywords, créer du contenu de qualité, etc. Toutefois, il existe une technique plus complexe exploitable : la conception d’un fichier robots.txt. Simple à construire et ne pesant que quelques kilo-octets, ce fichier se présente pourtant comme l’un des plus importants dans une stratégie de référencement sur Internet. Découvrez dans cet article comment créer un fichier robots.txt et l’optimiser.
Qu’est-ce qu’un fichier robots.txt ?
Après la création d’un site, on cherche à le référencer. En effet, sans référencement, une plateforme ne peut obtenir du trafic de qualité. Cependant, on ne souhaite pas toujours voir indexer toutes les pages du site par les moteurs de recherche. À cet effet, on recourt au protocole d’exclusion des robots encore connu sous le nom de robots.txt. Il s’agit d’une convention qui empêche les spiders d’accéder à des pages d’un site.
En référencement naturel, le protocole d’exclusion prive les robots des moteurs de recherche de certaines ressources dans un domaine web. Il comporte des commandes qui précisent aux bots les pages à indexer ainsi que celles qui ne devraient pas l’être. De cette façon, il permet aux spiders de réduire le temps de crawl d’un site et les oriente vers les pages de contenu à forte valeur ajoutée.
Les raisons de créer un fichier robots.txt ?
La première utilisation du fichier robots.txt remonte aux années 90, plus précisément en 1994. Martin Koster est le premier à en avoir fait usage. Le but était de bloquer l’accès de certaines ressources d’un site internet aux moteurs de recherche. Des années plus tard, on continue d’utiliser ce fichier, et les objectifs ne changent pas. Il existe deux principales raisons qui justifient le recours à un protocole d’exclusion des robots.
Le premier motif réside dans la volonté du créateur du site de garder secrètes certaines informations. Un exemple aide à mieux comprendre ce principe. On imagine que sur une plateforme, il existe une zone publique et une zone privée. La zone publique, ouverte à tout le monde, présente des informations que les visiteurs peuvent consulter. La zone privée, quant à elle, regroupe des données personnelles sur l’entreprise que seuls les employés peuvent lire.
Par principe, en l’absence d’un fichier robots.txt, les bots des moteurs de recherche indexent toutes les pages du site, y compris les pages de la zone privée. Les internautes accèdent alors au livre blanc de la société et à ses données comptables. Or, ces informations doivent relever du domaine privé. Le protocole d’exclusion des robots veille à ce qu’elles le demeurent.
Une autre raison qui justifie l’usage de ce protocole est qu’il allège le travail des indexeurs et évite que le trafic d’une plateforme se trouve surchargé. Enfin, le protocole contribue à indiquer aux moteurs de recherche l’adresse du sitemap d’un site internet.
Comment fonctionne le fichier robots.txt ?
Le fichier robots.txt fonctionne comme un panneau stop ! En effet, sur Internet, pour identifier des pages à présenter dans les résultats de recherche, les moteurs recourent à la méthode du « spidering ». Ils explorent des milliers de sites web en suivant les liens qui les unissent. Sur une plateforme, au bout de ces liens, peut se trouver un protocole d’exclusion des robots.
Lorsqu’il en découvre un, le bot suit les indications du protocole. Il peut ne pas pousser son analyse plus loin, par exemple en n’explorant pas des pages de vente de produits. Grâce au protocole qu’il conçoit, l’éditeur du site peut aussi réorienter le bot vers d’autres ressources. Mais si une plateforme ne comporte pas un fichier robots.txt, le bot indexe toutes ses pages, y compris celles qui ne sont pas importantes pour l’internaute.
Les règles à observer lors de la création d’un fichier robots.txt
Pour qu’il s’avère pertinent dans une stratégie de référencement, la rédaction du protocole d’exclusion des robots s’effectue en respectant certaines règles. Le fichier doit apparaître à la racine d’une plateforme. Pour un site www.exempledemonsite.com, le protocole se rédige comme suit : https://exempledemonsite.com/robots.txt.
On ne doit pas le positionner dans un sous-répertoire. Reprenant le même exemple, on ne doit pas écrire https://exempledemonsite.com/pages/robots.txt. Pour cause, les bots ne prennent pas en compte cette présentation. Par contre, il reste possible d’intégrer le fichier robots.txt à un sous-domaine. On peut écrire https://monsite.exemple.com/robots.txt.
Lors de la rédaction du fichier, il faut veiller à l’éditer avec des lettres minuscules. On écrit robots.txt, et non ROBOTS.TXT ou Robots.txt. Les moteurs de recherche ne comprennent pas ces valeurs. Par ailleurs, il convient d’agir avec doigté quand on crée un protocole d’exclusion des robots. Mais alors, dans quelles situations employer le protocole ? Dans quels cas doit-on créer un fichier robots.txt ?
Sous bien des angles, la création de ce fichier se révèle bénéfique. Toutefois, par mégarde, on peut exclure des pages qui doivent pourtant être indexées. Voilà pourquoi il faut identifier précisément les situations dans lesquelles s’utilise le fichier robots.txt.
En général, cela se réalise pour :
- Empêcher l’indexation des pages dupliquées,
- Éviter que les bots explorent le moteur de recherche interne d’un site,
- Définir un délai d’analyse des pages pour éviter que les serveurs deviennent surchargés,
- Préciser l’emplacement du sitemap, le plan de site,
- Bloquer l’indexation de certaines images de la plateforme.
La conception d’un protocole d’exclusion des robots ne s’avère pas indispensable. Si un site ne comporte aucune zone privée et que toutes ses informations peuvent être consultées par les internautes, éditer un fichier robots.txt paraît inutile. À l’opposé, s’il possède des informations privées, il est recommandé de créer ce fichier.
Comment créer un fichier robot.txt pour son site ?
La création du fichier s’effectue en suivant des règles. Cette opération implique également de se conformer à certaines étapes. Pour un novice dans les pratiques du référencement, l’opération se révèle fastidieuse. De fait, il existe deux options pour le concepteur du fichier : la création par l’utilisation d’outils spécialisés ou la méthode manuelle.
Utiliser un logiciel générateur d’un protocole d’exclusion des robots
Si l’on ne souhaite pas recourir à la méthode manuelle pour créer un fichier robots.txt, on peut se servir des modèles offerts par les CMS. En fonction de sa configuration, WordPress propose par défaut un protocole d’exclusion des robots. Cependant, on peut mettre à profit des logiciels en ligne. Robots.txt Generator figure dans le lot de ces logiciels.
L’outil offre une prise en main facile, ce qui permet, même à un débutant dans le SEO, de rédiger son protocole. Avec ce logiciel, on bloque ou autorise des pages à l’indexation par les bots de recherche. Elles ne seront pas crawlées. Un référenceur peut aussi se servir du plugin Yoast SEO.
Éditer le fichier avec le plugin Yoast SEO
Yoast SEO donne la possibilité de créer et modifier le fichier robots.txt de son site directement depuis l’interface. À cet effet, le webmaster se rend dans l’onglet SEO > Outils > Éditeur de fichiers. Dans cette rubrique, on apporte des modifications au plan de site, et l’on met en place une redirection 301.
Avec le plugin, le propriétaire de site peut également intégrer son fichier sitemap.xml à son protocole d’exclusion des robots. Cette méthode contribue à optimiser le crawl des pages. L’usage d’un plugin ou d’un outil en ligne se révèle avantageux. Toutefois, la majorité des professionnels dans le référencement SEO préfèrent l’approche manuelle.
Créer le fichier robots.txt de façon manuelle
Avant de se lancer dans la conception d’un fichier robots.txt, il faut en connaître le langage. Le fichier se compose de trois éléments :
- User-agent : il s’agit des bots des moteurs de recherche. Google utilise Googlebot, et Bing se sert de Bingbot ;
- Disallow : la commande empêche les user-agents d’accéder à une URL ou un dossier spécifique ;
- Allow : l’instruction autorise les user-agents à se connecter sur une URL insérée dans un dossier interdit.
La création du protocole d’exclusion des robots s’accomplit sur le bloc-notes d’un ordinateur. Mais on peut également recourir à un logiciel comme Notepad++ pour y parvenir. La taille du fichier importe, il doit se situer en dessous de 62 Ko. Après la conception du fichier robots.txt, on l’ajoute à la racine de son site.
Donner des directives dans le fichier
À propos du contenu du fichier, différentes formulations demeurent possibles. On peut écrire :
User-agent : *
Disallow :
Placée devant la référence des user-agents, l’astérisque prouve que la commande s’adresse à tous les bots des moteurs de recherche. Quant à la référence « Disallow : », elle symbolise que les bots explorent toutes les pages du site sans aucune restriction.
Le webmaster peut employer d’autres formulations :
User-agent : *
Disallow : /
La présence de « / » dans le fichier robots.txt indique que les bots ne doivent pas indexer toutes les pages. Ils n’exploreront pas tout le répertoire du site, mais seulement des pages spécifiques. On peut utiliser cette formulation lorsqu’on crée de nouvelles fonctionnalités sur son site internet et qu’on ne souhaite pas encore que les internautes les découvrent.
Un éditeur d’un site peut aussi opter pour la formulation :
User-agent : *
Disallow :/nomdurepertoire-a/
Disallow :/nomdurepertoire-b/
Ces directives indiquent que l’on exclut du crawl des moteurs de recherche des répertoires précis. Dans ce cas, le webmaster considère que ces répertoires manquent de pertinence et ne suscitent pas l’engagement des internautes. De fait, leur indexation se révèle inutile.
Utiliser les wildcares et les balises meta robots
Un fichier robots.txt bloque l’accès à des ressources d’un bon site web. Cependant, pour plus d’efficacité et de praticité, on peut lui ajouter des wildcares. Il s’agit de méta caractères qui donnent des instructions récurrentes aux bots de recherche. Les wildcares empêchent ces derniers d’accéder à des URLs précises de la plateforme. Par exemple, le webmaster peut écrire :
User-agent : *
Disallow : /* ?
Le « User-agent : * » signifie que la commande s’adresse à tous les moteurs de recherche. Le « Disallow : /* ? » précise que les URLs qui incluent le signe « ? » ne doivent pas être indexées.
En plus du fichier robots.txt, on peut se servir d’une balise meta robots. Elle s’insère dans le code source d’une page et renseigne sur quels types de contenus les bots peuvent indexer et afficher dans les résultats de recherche. Que l’on opte ou non pour cette solution, lors de la composition du protocole d’exclusion des robots, il faut éviter certaines pratiques.
Les erreurs à ne pas commettre dans le fichier robots.txt
Quand on rédige un protocole d’exclusion des robots, il convient de rester attentif. En effet, une mauvaise composition peut empêcher Google de référencer des pages qui devraient l’être. En outre, le fichier peut ne pas s’avérer efficace : les bots continueront d’indexer des pages privées d’un site. Afin d’éviter ces situations, lors de la rédaction du fichier, il faut éviter de :
- Mal orthographier l’url robots.txt, cela pourrait renvoyer à une erreur 404 ;
- Mal encoder le fichier ;
- Introduire une ligne blanche dans la liste des instructions données aux bots ;
- Mal positionner le fichier ou lui changer d’emplacement.
Tester l’efficacité de son fichier robots.txt
Après la rédaction du protocole d’exclusion des robots, on le teste. Ainsi, on s’assure que les pages que l’on souhaite désindexer le sont. On vérifie les éventuelles erreurs dans l’encodage et l’on apporte les corrections si nécessaire. Quel outil utiliser pour tester son protocole ? Généralement, les webmasters se servent de Google Webmaster Tools.
Il favorise la réalisation du test via Google Search Console. Pour cela, après s’être identifié sur Google Search Console, on clique sur Exploration > Outils de test du fichier robots.txt.
Éditer un protocole d’exclusion des robots pour son site s’avère avantageux. On interdit aux bots d’indexer des pages qui relèvent de la zone privée de la plateforme. Grâce à un bon encodage, selon les commandes qui y apparaissent, les bots n’explorent pas ces pages. Cependant, il faut manipuler le protocole avec précaution afin d’éviter les erreurs de référencement. Celles-ci peuvent paralyser la visibilité du site.