L'absence de fichier robots.txt sur le site peut compromettre le crawl

Soumis par Yann Faurie dim 20/02/2022 - 16:29

Toujours avoir robots.txt à la racine de son site

C’est désormais obligatoire ! L’absence d’un fichier robots.txt à la racine de votre répertoire peut bloquer l’indexation des pages. Voici une copie de la Google Search Console d'un site qui n'avait pas ce fichier à la racine.

Ce fichier est un simple document texte, et ne nécessite aucune connaissance en développement web. Il est composé de règles nominatives autorisant ou interdisant l'accès à certaines pages, fragments d'URL, répertoires.

Robots.txt est donc utile pour gérer le passage des différents logiciels, c'est à dire leur crawl (leur parcours) des fichiers présents sur le serveur du site. Il n'a aucun rôle dans l'indexation de ces fichiers. Si vos pages ont été parcourues (voir les fichiers logs de votre hébergeur web, ou analyser le comportement des bots avec des logiciels d'analyse de logs), et que vous ne souhaitez pas ou plus avoir certains contenus indexés, il faut pour cela utiliser les directives noindex, npfollow, nocache,etc. fichier par fichier.

Il serait stupide de prendre le risque de voir les robots de Google ignorer les pages de son site simplement à cause de l'absence de ce fichier non ? Certains webmasters ne le mettent pourtant pas. Voici les raisons principales :

Ignorance totale de ce fichier et de son rôle
Méconnaissance du paramétrage de ce fichier
Inutilité du fichier si rien à interdire aux Googlebots (paresse)

Pourtant d'autres raisons peuvent aussi être importantes, comme par exemple le piratage du fichier (ré-écriture des règles d'autorisation et d'interdiction Googlebots, ou suppression pure et simple du fichier)

Il est donc très important de surveiller ce fichier régulièrement !

google search console fichier robots.txt — L’URL ne sera indexée que si elle respecte certaines conditions

Robots.txt contre ChatGPT

Depuis l'an dernier que l'IA ne cesse de prendre une place de plus en plus importante dans la transformation numérique des entreprises, au travers des applications informatiques, des services en ligne, des assistants de rédaction et de marketing, etc. la paradigme est passé, depuis GPT3 qui utilisait des bases de données fermées et figées dans le temps (l'époque pré-Covid-19) à GPT4, d'un parcours du web choisi et modéré, à un accès désormais ouvert sur l'ensemble du web.

Si vous ne souhaitez pas laisser ces agents parcourir les pages de vos sites, vous pouvez utiliser le fichier robots.txt pour dresser une première barrière contre ces crawlers.

Voici la règle à ajouter dans le fichier :

user-agent: CCBot

Disallow: /

user-agent: ChatGPT-User

Disallow: /

Si vous souhaitez voir ce que donne le fichier complet, vous pouvez afficher le robots.txt d'Omnireso.

Explication : CCBot est le nom du robot Common Crawl, une organisation qui met à disposition une base de données du web utilisée entre autres par Open Ai. Pour en savoir plus : https://commoncrawl.org/big-picture/frequently-asked-questions/

ChatGPT-user, comme son nom l'indique, est l'agent utilisé par certaines extensions utilisant cette technologie.

Blocage de bots par robots.txt

L'usage du fichier robots.txt a bien changé avec les années. Il était principalement utilisé pour bloquer les robots (voir le site attrape robots, mais ce n'est plus la principale utilisation. En effet, on trouve des listes de "bad bots" facilement, mais la plupart du temps les informations sont obsolètes, car les éditeurs de logiciels qu'on peut vouloir bloquer ont tout à fait le droit de changer le nom de leur agent utilisateur (ou ne serait-ce que sa version, ce qui rend votre règle inutile). Ou encore ils peuvent décider de ne pas se conformer aux règles du robots.txt. Bref : c'est une rustine qui ne garantit rien. Et pire, si vous copiez-collez une liste récupérée sur internet, vous bloquez peut-être sans le savoir ni le vouloir des logiciels utiles. Enfin, garder une liste de centaines de robots à bloquer alourdit le temps de traitement par les robots comme ceux de Google ou Bing, car ils doivent parcourir tout le fichier pour vérifier que d'autres règles ne s'appliquent pas à eux.

En 2023 l'usage principal de ce fichier texte est celui d'un filtre, avec des règles d'inclusion ou d'exclusion très fines. C'est souvent du sur-mesure.

Il est possible de tester les règles depuis la Search Console Google. Connectez-vous à votre compte GSC, sélectionnez la propriété (l'adresse du site) à tester, puis l'outil vous indique si le fichier comporte des erreurs, tout en vous permettant de tester ces règles en proposant des URL qui peuvent être fictives : https://www.google.com/webmasters/tools/robots-testing-tool

Robots.txt et Humans.txt

Pour l'anecdote (un peu de culture web ne faisant pas de mal), certains webmasters publient également un fichier humans.txt à la racine de leur site. Clin d'oeil destiné à donner des informations de type "meta" sur le projet : qui a contribué, collaboré au site, dans quel contexte (par exemple, en écoutant tel duo basse-batterie pendant le développement, ou en ayant été impressionné par le lecture de tel livre, etc.)

robots.txt manquant et compromission du crawl

Toujours avoir robots.txt à la racine de son site

Robots.txt contre ChatGPT

Blocage de bots par robots.txt

Robots.txt et Humans.txt

Informations sur cet article