Empêcher l'indexation des paramètres d'URL avec robots.txt
Il est possible d'indiquer à Google de ne référencer qu'une seule page en ignorant les paramètres d'URL. Pour ce faire, il existe plusieurs méthodes.
Le moteur de recherche Google indexe par défaut tous les liens que vous utilisez dans votre site. Si vous utilisez un paramètre dans un lien, Google indexera autant d'URL qu'il y a de valeurs possibles pour ce paramètre. Par exemple, les deux liens suivants seront compris comme étant deux pages différentes pour Google alors que dans votre site internet, ils afficheront le même contenu :
http://www.monsite.fr/produit?id=1
http://www.monsite.fr/produit?id=1&action=commenter
Il est possible d'indiquer à Google de ne référencer qu'une seule page en ignorant les paramètres d'URL, et il existe plusieurs méthodes.
Le robot du moteur de recherche de Google, le Googlebot, est capable de lire les "wild cards" et de les comprendre dans le fichier robots.txt. Il est ainsi possible d'écrire une commande qui indique aux robots de ne pas tenir compte d'un paramètre. On utilise pour cela la directive "Disallow", qui serait ainsi employée pour l'exemple cité ci-dessus :
Disallow: /*action=commenter
Cette méthode ne fonctionnera pas avec tous les robots, car ce n'est pas un standard, mais Google comprend l'instruction. Elle a également des inconvénients. Cela peut en effet causer un problème avec votre référencement dans le cas où Google ne trouve pas l'URL sans le paramètre. Il faudra aussi supprimer manuellement les URL déjà indexées avec le paramètre, grâce à l'option "URL à supprimer" du menu "Index Google" dans la Search Console (ex-Google Webmaster Tools).
Une deuxième solution est l'utilisation de l'URL canonique. Il s'agit d'une URL unique à insérer avec la balise <link> dans le code de votre page HTML :
<link rel="canonical" href="http://www.monsite.fr/produit?id=1">
Quand le robot de Google va parcourir cette balise au sein d'une page qui n'a pas cette URL, il va savoir qu'une autre URL, celle indiquée, doit être considérée comme canonique, et il ne sera pas censé tenir compte des autres URL, avec d'autres paramètres mais renvoyant vers le même contenu. Même si plus tard, vous créez un nouveau paramètre, si l'URL canonique ne change pas au sein des nouvelles URL, alors le moteur de recherche continuera de privilégier cette même URL canonique.
Une autre option existe dans la Search Console (ex-Google Webmaster Tools). Allez dans le menu "Exploration", puis choisissez l'option "Paramètres d'URL". Sélectionnez l'option "Ajouter un paramètre". Vous pouvez saisir le nom du paramètre ("action" dans notre premier exemple), puis choisissez l'option "Non, il n'affecte pas le contenu de la page". Il faut effectuer cette opération autant de fois qu'il y a de paramètres à ajouter.
Lire aussi, sur le même sujet :
Empêcher l'indexation d'un site miroir (un sous-domaine) via le fichier robots.txt