Vérificateur d'indexabilité

Colle une URL et vois si Google peut l'indexer : status HTTP, meta robots, X-Robots-Tag, robots.txt et canonical, avec le blocage nommé.

Un vérificateur d'indexabilité lit les signaux techniques qui décident si Google peut indexer une URL, puis te dit la raison exacte pour laquelle une page est bloquée. Colle une page en ligne et il récupère le status HTTP, le meta robots, le header X-Robots-Tag, le canonical et un check du robots.txt dès la toute première requête, côté serveur, donc tu agis sur ce que le serveur envoie vraiment plutôt que sur une supposition. C'est l'outil que j'ouvre en premier quand une page sort discrètement des résultats, parce que la cause, c'est souvent un noindex perdu ou un disallow oublié, pas le contenu. Il note la page, signale le signal qui compte le plus, et pose le crawl, le canonical et la réponse brute côte à côte. Indexable ne veut pas dire indexé, donc une fois la couche technique propre je vais corriger le contenu et le maillage interne.

Les requêtes passent par le service de lookup PeopleAreGeek. Nous ne journalisons rien.

Vérificateur d'indexabilité : status, robots.txt, noindex, canonical, sitemap et signaux de crawl

Des pages disparaissent de Google pour les raisons les plus bêtes. Un noindex perdu que personne ne se souvient avoir ajouté. Ou une règle robots.txt qu'un prestataire a laissée traîner en 2019. Du coup je balance une URL en ligne ici et l'outil récupère le status HTTP, le meta robots, le header X-Robots, le canonical, plus un check du robots.txt, le tout dès la première requête. Un coup d'oeil et tu vois si quelque chose bloque discrètement la page.

Ce que fait un vérificateur d'indexabilité

Un vérificateur d'indexabilité lit les signaux techniques qui décident si Google peut indexer une URL, puis nomme celui qui la bloque. Colle une page et il récupère le status HTTP, le meta robots, le header X-Robots-Tag, le canonical et un check du robots.txt dès la toute première requête, donc tu agis sur ce que le serveur envoie vraiment plutôt que sur ce que tu supposes. C'est l'outil que j'ouvre en premier quand une page sort discrètement des résultats, parce que la cause, la plupart du temps, c'est une directive oubliée que personne ne se souvient avoir ajoutée, pas le contenu.

Indexable ne veut pas dire indexé

Ce checker ne traque que les blocages techniques. Ta page peut être crawlable et indexable et Google peut quand même la laisser de côté, parce que le contenu est mince ou que rien ne pointe vers elle. Je lance ça en premier pour écarter les suspects techniques. Ensuite je vais corriger le contenu et le maillage interne. Honnêtement, c'est là que se cache le vrai problème la plupart du temps.

Signaux vérifiés

  • Le status HTTP. Tu veux un 200 propre sur une page destinée à l'index. Une redirection ou un 404 qui traîne ici, c'est un drapeau rouge.
  • Le meta robots et le header X-Robots-Tag. Ni l'un ni l'autre ne doit dire noindex. Ce header-là, on l'oublie tout le temps, vu qu'il vit dans la réponse et pas dans le HTML.
  • Le robots.txt. Il ne doit pas bloquer le chemin pour Googlebot. Un disallow mal placé peut effacer toute une section du site.
  • Le canonical. Il doit pointer vers la version que tu veux vraiment voir indexée, pas vers un doublon ou une URL qui traîne des query parameters partout.
  • La découvrabilité. Il faut bien que Google trouve la page d'une façon ou d'une autre, que ce soit via ton sitemap ou un vrai lien interne qui pointe vers elle.

Comment je lis le résultat

Je regarde le status et les drapeaux noindex en premier, parce qu'un 200 sans noindex, c'est le minimum requis avant que quoi que ce soit d'autre compte. Ensuite le verdict du robots.txt, vu qu'un disallow large peut bloquer tout un répertoire en une ligne. Ensuite le canonical, pour être sûr que la page pointe vers elle même et pas vers un doublon ou une copie chargée de paramètres. Quand tout ça est propre et que la page manque toujours, j'arrête d'accuser la couche technique et je vais voir le contenu et le maillage interne, puis je confirme l'état de couverture dans l'inspection d'URL de la Search Console.

Questions fréquentes

Qu'est-ce qui rend une page non indexable ?

Quelques suspects habituels. Un noindex (meta robots ou le header X-Robots-Tag), un status HTTP qui n'est pas 200, un canonical qui pointe ailleurs, ou un mur de connexion. Et voilà celui qui piège tout le monde. Un disallow dans le robots.txt bloque le crawl, ce qui n'est pas la même chose que bloquer l'indexation. Problème complètement différent, donc je le traite comme un signal à part.

Est-ce qu'un disallow dans le robots.txt retire une page de Google ?

Non, et cette réponse surprend du monde en permanence. Le disallow stoppe le crawl. Mais si d'autres pages pointent vers cette URL, Google peut quand même la lister, juste sans extrait, avec ce triste bandeau aucune information disponible. Donc si tu veux vraiment la faire disparaître, fais l'inverse de ce qui semble logique. Autorise le crawl pour que Googlebot puisse atteindre la page, puis sers un noindex. Il faut le laisser entrer avant qu'il accepte de partir.

Quelle est la différence entre noindex et canonical ?

Ils se ressemblent. Mais pas du tout. Le noindex, c'est un non franc, garde cette page hors de l'index, point final. Le canonical est plus doux, juste un indice qui dit que ces pages sont en gros identiques, traite celle-ci comme la version de référence. Avec un canonical la page continue d'être crawlée et peut encore remonter. Donc ma règle : noindex quand je veux qu'une page disparaisse, canonical quand j'ai des quasi-doublons et que j'ai juste besoin que Google choisisse un gagnant.

Pourquoi ma page est indexable mais toujours pas indexée ?

Indexable veut juste dire que rien ne la bloque activement. C'est le minimum, pas une promesse. Google garde le dernier mot. Il pèse s'il a seulement trouvé la page, si le crawl vaut le budget, et si le contenu tient la route face au quasi-doublon qu'il a peut-être déjà. Quand je veux la vraie réponse plutôt que de deviner, je colle l'URL dans l'inspection d'URL de la Search Console. Elle te montre l'état de couverture exact directement de Google.

Est-ce que cet outil exécute le JavaScript ?

Non. Il lit le HTML servi et les headers de la réponse, exactement ce qui revient à la première requête. Ce qui compte plus qu'il n'y paraît. Si du JavaScript injecte ton meta robots ou ton canonical après le chargement, ce que Google finit par rendre peut diverger de ce que tu vois ici. Donc quand une page s'appuie sur le JS pour ce genre de choses, confirme l'état final dans l'inspection d'URL de la Search Console, parce qu'elle rend vraiment la page comme le fait Google.