Question 1

Qu'est-ce qui rend une page non indexable ?

Accepted Answer

Quelques suspects habituels. Un noindex (meta robots ou le header X-Robots-Tag), un status HTTP qui n'est pas 200, un canonical qui pointe ailleurs, ou un mur de connexion. Et voilà celui qui piège tout le monde. Un disallow dans le robots.txt bloque le crawl, ce qui n'est pas la même chose que bloquer l'indexation. Problème complètement différent, donc je le traite comme un signal à part.

Question 2

Est-ce qu'un disallow dans le robots.txt retire une page de Google ?

Accepted Answer

Non, et cette réponse surprend du monde en permanence. Le disallow stoppe le crawl. Mais si d'autres pages pointent vers cette URL, Google peut quand même la lister, juste sans extrait, avec ce triste bandeau aucune information disponible. Donc si tu veux vraiment la faire disparaître, fais l'inverse de ce qui semble logique. Autorise le crawl pour que Googlebot puisse atteindre la page, puis sers un noindex. Il faut le laisser entrer avant qu'il accepte de partir.

Question 3

Quelle est la différence entre noindex et canonical ?

Accepted Answer

Ils se ressemblent. Mais pas du tout. Le noindex, c'est un non franc, garde cette page hors de l'index, point final. Le canonical est plus doux, juste un indice qui dit que ces pages sont en gros identiques, traite celle-ci comme la version de référence. Avec un canonical la page continue d'être crawlée et peut encore remonter. Donc ma règle : noindex quand je veux qu'une page disparaisse, canonical quand j'ai des quasi-doublons et que j'ai juste besoin que Google choisisse un gagnant.

Question 4

Pourquoi ma page est indexable mais toujours pas indexée ?

Accepted Answer

Indexable veut juste dire que rien ne la bloque activement. C'est le minimum, pas une promesse. Google garde le dernier mot. Il pèse s'il a seulement trouvé la page, si le crawl vaut le budget, et si le contenu tient la route face au quasi-doublon qu'il a peut-être déjà. Quand je veux la vraie réponse plutôt que de deviner, je colle l'URL dans l'inspection d'URL de la Search Console. Elle te montre l'état de couverture exact directement de Google.

Question 5

Est-ce que cet outil exécute le JavaScript ?

Accepted Answer

Non. Il lit le HTML servi et les headers de la réponse, exactement ce qui revient à la première requête. Ce qui compte plus qu'il n'y paraît. Si du JavaScript injecte ton meta robots ou ton canonical après le chargement, ce que Google finit par rendre peut diverger de ce que tu vois ici. Donc quand une page s'appuie sur le JS pour ce genre de choses, confirme l'état final dans l'inspection d'URL de la Search Console, parce qu'elle rend vraiment la page comme le fait Google.

Vérificateur d'indexabilité

Vérificateur d'indexabilité : status, robots.txt, noindex, canonical, sitemap et signaux de crawl

Ce que fait un vérificateur d'indexabilité

Indexable ne veut pas dire indexé

Signaux vérifiés

Comment je lis le résultat

Questions fréquentes