Joomla! et le fichier robots.txt

Cet article s'adresse aux moins aguerris. Il permet de rendre les fichiers images, CSS et Javascript de votre site visibles par les robots d'indexation.

 

Prérequis

La mise au point de ce fichier nécessite des comptes : Google Search Console, éventuellement Bing Console pour vérifier les erreurs.

 

Le fichier robots.txt

Il est primordial puisqu'il indique aux moteurs de recherche les fichiers et dossiers qu'ils peuvent visiter et ceux qui leur sont interdits.
Les bots qui visitent votre site peuvent être utiles (Googlebot, Bingbot,…) ou trop curieux...
Par défaut, le fichier robots.txt fourni par Joomla ne convient pas pour une visite des robots utiles.

Fichier robots.txt de Joomla par défaut

Toutes les portes sont fermées, hormis les dossiers "images" et "templates".

Pour rendre votre site visible par les robots d'indexation, il faut aller sur votre console Google et lancer la procédure suivante :

Exploration -> Explorer comme Google -> Explorer et Afficher (le bouton rouge). Faites les 2 formats : Ordinateur et Mobile.

Le rapport d'exploration vous indique en bas de page les erreurs rencontrées par le robot lors de sa visite, c'est à dire les fichiers (et leur chemin) auxquels il n'a pas accès.

Il existe de multiples façons de coder ce fichier. Je vous propose cette méthode :


Un cas précis

Vous utilisez sur l'une des pages de votre site un module slideshow. L'instruction "Disallow: /modules/" empêchera les moteurs de recherche de voir les feuilles CSS et les fichiers Javascript.
Il faudra donc ajouter la ligne suivante (au-dessus de l'instruction "Disallow: /modules/") :

Allow: /modules/le-nom-de-votre-slideshow


De la même manière, si vous utilisez le plugin MediaboxCK, les lignes suivantes devront être ajoutées :

Allow: /plugins/system/mediabox_ck/assets/mediaboxck.css
Allow: /plugins/system/mediabox_ck/assets/mediaboxck.min.js
Disallow: /plugins/

 

Pour les béotiens, voici quelques copies d'écran :

Dans la console Google "Parcourir comme Google" "Explorer et afficher" (Exploration : "Partiel")

Explorer comme Google

En bas de page, vous avez le chemin et les fichiers inaccessibles.

Les fichiers non lus par Google

 Vous devrez donc ajouter les lignes suivantes dans le fichier robots.txt :


Allow: /templates/votre-template/script.js
Allow: /templates/votre-template/script–responsive.js
Allow: /templates/votre-template/jquery.js
Allow: /templates/votre-template/modules.js

 

Une règle importante : Toujours placer les instructions Allow d'un élément (module ou plugin) au dessus de l'instruction Disallow.

Le fichier robots.txt commence à s'étoffer. Il peut ressembler à ceci :

Le fichier robots txt finalisé 

 Ce sont les analyses Google Search Console "Parcourir comme Google" qui permettent d'afficher les fichiers à intégrer et leur chemin.

Vous pouvez vous en inspirer pour mettre au point le vôtre.

À noter, cet excellent modèle suggéré par Daneel et testé avec beaucoup de succès. Il semble couvrir l'ensemble des besoins des robots d'indexation et notamment Google bot :

Le fichier robots.txt optimisé

 

Les sitemaps

Il est très important de signaler vos sitemaps dans le fichier robots.txt

Plusieurs méthodes : Utiliser un composant Joomla! en cherchant sur les extensions disponibles.Vous pouvez aussi opter pour des sitemaps générés par des sites en ligne (XML-Sitemaps.com).

 

Transférer par ftp le fichier robots.txt modifié et relancer sur la console "Parcourir et afficher". Cette opération est à renouveler tant que vous avez un résultat "Partiel" et jusqu'à l'obtention de l'état "Terminé" qui indique que Google peut visiter l'ensemble de votre site.

Pour être complet sur le sujet, sachez que les hackers ont coutume de visiter ce fichier pour en détecter les éventuels dossiers "sensibles". Vous pouvez le rendre invisible aux visiteurs malintentionnés avec Aesecure, qui possède cette fonction dans sa version gratuite !

 

 Les autres articles de cette catégorie

 

Ce site utilise les cookies pour améliorer son utilisation