Erreurs courantes et astuces – SEO & Engine News – Abundance › Geeky News - 1

Le fichier robots.txt est un élément essentiel dans l’art de mettre en place un crawling de qualité de votre site web par les robots des moteurs de recherche. Mais sa syntaxe n’est pas toujours aussi simple et les erreurs sont parfois fréquentes. Voici un petit bilan du staff des bonnes pratiques à mettre en place pour avoir le moins de surprises possible…

Le fichier robots.txt est un atout important pour maîtriser les moteurs de crawling et autres outils sur un site web. Situé à la racine d’un site (ex. www.monsite.com/robots.txt), il permet aux robots d’accéder ou non à certaines ressources via différentes directives. Cela peut affecter par exemple des URL non pertinentes (filtres à facettes, URL techniques, URL liées à l’interface d’administration, etc.) pour améliorer la qualité des pages indexées, mais aussi le budget de crawl pour les sites à fort volume de pages.

Il est régulièrement visité par les robots des moteurs de recherche, et certains outils (par exemple, les aspirateurs de sites Web) ne les vérifient que lorsqu’il y a des appels spécifiques. Nous allons passer en revue dans cet article les erreurs courantes liées au fichier robots.txt, ainsi que des astuces pour mieux optimiser ce fichier et en faciliter la lecture et la maintenance dans le temps. Mais revenons d’abord à une notion importante liée au crawling et à l’indexation.

Crawl ne rime pas avec indexation

Ce fichier est souvent mal compris : il ne doit pas être considéré comme permettant de désindexer les URL, mais plutôt de restreindre l’exploration des URL, et donc d’empêcher potentiellement l’indexation de pages spécifiques, car elles sont impossibles à explorer.

Différences entre l’exploration et l’indexation. Auteur : Indexation SEO – Licence : CC BY-SA 4.0

Pour désindexer les pages, vous devez utiliser la balise (ou via les en-têtes HTTP avec la directive X-Robots-Tag). Il faut comprendre qu’une page crawlable ne sera pas forcément indexée (pertinence, duplication, problème technique, ou politique de non-indexation) et qu’à l’inverse, une page non crawlable pourra parfois être indexée (ex : restriction sur la post-indexation des robots.txt, indexation malgré une restriction !)

Google et le fichier robots.txt

Est-ce toujours efficace ?

Même si Google est censé respecter le fichier robots.txt, il est possible qu’il apparaisse quand même dans vos résultats, pages bloquées dans le fichier robots.txt.

[Cet article est disponible sous sa forme complète pour les abonnés du site Réacteur. Pour en savoir plus : https://www.reacteur.com/2022/01/fichier-robots-txt-erreurs-frequentes-et-astuces.html]

Fichier robots.txt : erreurs courantes et conseils
Erreurs courantes et astuces – SEO & Engine News – Abundance › Geeky News - 4

Un article rédigé par Aymeric Bouillat, consultant SEO senior chez Novalem.

Script PHP, Elementor Pro Weadown, Thème WordPress, Fs Poster Plugin annulé, Journal – Thème WordPress News & WooCommerce, Wordfence Premium annulé, Dokan Pro annulé, Plugins, Elementor Pro Weadown, Astra Pro annulé, Addons Premium pour Elementor, Yoast annulé, Flatsome Annulé, Annonce de produit personnalisé Woocommerce, Wpml annulé, Thème Woodmart annulé, Cartes-cadeaux PW WooCommerce Pro annulé, Avada 7.4 annulé, Journal 11.2, Jannah annulé, Jnews 8.1.0 annulé, WP Reset Pro, Thème Woodmart annulé, Conseil aux entreprises annulé, Classement Math Seo Pro Weadown, Slider Revolution Nulled, Consulting 6.1.4 Nulled, WeaPlay, Nulledfire