Bloqueur de crawlers IA
Génère un robots.txt qui bloque GPTBot, ClaudeBot, Google-Extended et CCBot
Un bloqueur de crawlers IA te laisse bloquer les crawlers IA qui aspirent tes pages, en générant les règles robots.txt et les directives serveur qui disent à chaque bot de rester dehors. Cet outil couvre tous les bots documentés en 2026 : les crawlers d'entraînement comme GPTBot d'OpenAI, ClaudeBot d'Anthropic, Google-Extended et le CCBot de Common Crawl, plus les fetchers intégrés comme ChatGPT-User et Perplexity-User. Tu coches ceux à bloquer, tu gardes Googlebot et Bingbot tranquilles, tu ajoutes ton sitemap, puis tu copies ou télécharges le fichier. Il produit aussi des blocages durs Apache et Nginx en HTTP 403 et un preset opt-out EU AI Act. Tout tourne dans ton navigateur ; rien ne quitte ta machine.
100% dans votre navigateur. Rien de ce que vous tapez ne quitte cette page.
Générateur local de robots.txt pour les crawlers IA
Construis un fichier robots.txt qui bloque les crawlers d'entraînement IA et les fetchers intégrés utilisés par ChatGPT, Claude, Gemini, Perplexity, Meta AI, Apple Intelligence, Common Crawl et 15 autres bots IA. Choisis lesquels bloquer, garde les moteurs de recherche comme Googlebot et Bingbot en train de crawler, ajoute l'URL de ton sitemap et des chemins personnalisés, puis copie le fichier ou télécharge-le. Le générateur tourne entièrement dans ton navigateur ; aucune donnée n'est envoyée nulle part.
robots.txt repose sur le volontariat. Les éditeurs IA sérieux le respectent (OpenAI, Anthropic, Google, Perplexity, Apple, Meta). Pour une application stricte, ajoute aussi les blocages au niveau serveur (.htaccess ou Nginx) générés plus haut.
Ce qu'un bloqueur de crawlers IA fait pour ton site
La plupart des gens passent à côté. L'IA récupère tes pages de deux façons complètement différentes, et il se peut qu'une seule des deux t'intéresse. Les crawlers d'entraînement, comme GPTBot d'OpenAI, ClaudeBot d'Anthropic, Google-Extended et le CCBot de Common Crawl, aspirent le web ouvert pour constituer les jeux de données sur lesquels la prochaine version du modèle va apprendre. Les agents intégrés aux produits, eux, c'est une autre bête. ChatGPT-User, Perplexity-User, le web fetcher de Claude et les autres récupèrent une seule page en temps réel, pile au moment où quelqu'un pose une question à un chatbot à son sujet. Chaque bot porte son propre user-agent, fait son petit boulot bien précis, et les plus sérieux lisent désormais le robots.txt comme signal d'opt-out.
Donc ce générateur couvre tous les bots IA pour lesquels j'ai pu trouver un user-agent documenté en 2026 : GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, claude-web, anthropic-ai, Google-Extended, Applebot-Extended, PerplexityBot, Perplexity-User, Meta-ExternalAgent, FacebookBot, Bytespider, CCBot, Amazonbot, Diffbot, omgilibot, YouBot, Kagibot, Cohere-AI, Timpibot, et deux ou trois anciens noms qui traînent encore. Tu les actives un par un. Ou tu prends un preset comme Block AI training ou EU AIA Article 4(3) opt-out et tu ajustes à partir de là. Googlebot, Bingbot et les autres crawlers de recherche restent intacts par défaut, parce que flinguer ton propre trafic organique, c'est la dernière chose dont on a envie.
Comment fonctionne le blocage des crawlers IA via robots.txt
Rien de tout ça n'est une techno récente. Le Robots Exclusion Standard remonte à 1994, et il a fini par être correctement formalisé en RFC 9309 en 2022. C'est un fichier en texte brut, rien de plus sophistiqué, posé à /robots.txt à la racine de ton domaine. Dedans, tu as un ou plusieurs blocs User-agent, chacun avec ses propres lignes Allow et Disallow. Un crawler arrive, lit le fichier, trouve le bloc qui porte son nom, puis fait ce qu'on lui dit. Sauf qu'il y a un hic : c'est un système d'honneur. Rien n'oblige physiquement un bot à obéir. C'est une convention, et seuls les opérateurs bien élevés se donnent la peine de la suivre. Le bon côté, c'est que les gros éditeurs IA publient tous le nom de leurs bots et ont déclaré, officiellement, qu'ils respecteraient le fichier.
- Choisis les bots que tu veux bloquer. Pas envie de servir de carburant aux modèles ? Les crawlers d'entraînement sont ta cible. Si c'est le comportement live du genre résume cette page qui t'embête, vise plutôt les fetchers intégrés. Pas du tout le même combat.
- Décide de la portée des chemins.
Disallow: /ferme tout le site à ce user-agent. Ou tu cloisonnes un coin, disons/blog/ou/archive/, et tu les laisses se balader sur le reste. - Garde les moteurs de recherche en train de crawler en laissant simplement leurs user-agents hors de la liste de blocage. Googlebot, Bingbot, DuckDuckBot et les autres restent autorisés, que tu l'écrives noir sur blanc ou non.
- Ajoute une application au niveau serveur quand il y a vraiment de l'argent ou un enjeu juridique en jeu. Les blocs Nginx et Apache que cet outil produit frappent les user-agents listés d'un bon gros HTTP 403, même ceux qui font comme si le robots.txt n'existait pas.
- Déploie et vérifie. Pose le fichier dans ton web root, puis charge vraiment
https://yourdomain.com/robots.txtdans un navigateur et lis ce qui revient. Ne pars pas du principe que l'upload a pris. Un cache périmé m'a déjà eu plus d'une fois, franchement.
Cas d'usage courants pour bloquer les crawlers IA
- L'éditeur qui protège son travail éditorial. Tu vis des clics vers tes articles. Du coup, un modèle qui avale tout ce que tu écris et répond à ta place, sans jamais t'envoyer un seul lecteur, c'est une hémorragie lente. Bloquer les crawlers d'entraînement, c'est la manière la plus directe de dire que ton travail n'est pas du carburant gratuit.
- Le SaaS qui cache sa documentation payante. De la doc derrière un paywall ou un login n'a rien à faire dans un corpus d'entraînement scrapé. Bloque GPTBot et CCBot et tu réduis le risque que ce que tes clients ont payé finisse répondu, gratuitement, à l'intérieur du chatbot de quelqu'un d'autre.
- L'ayant droit européen qui exerce l'opt-out de l'Article 4(3). Le EU AI Act reprend le vieil opt-out copyright sur la fouille de textes et de données et le rend lisible par machine. Le preset EU AIA opt-out écrit ici exactement les blocs user-agent que les principaux éditeurs ont dit qu'ils honoreraient.
- La marque qui veut des réponses IA cohérentes. Peut-être que tu préfères que les produits IA renvoient les gens vers ton vrai centre d'aide via la recherche plutôt que de réciter une copie cachée de celui-ci. Bloquer les fetchers intégrés tout en laissant tranquilles les crawlers d'entraînement, c'est une manière discrète de dire passe par mes canaux officiels.
- Le contenu de staging interne ou de faible qualité. Un blog à moitié écrit ou une machine de staging ne devrait jamais déborder dans l'entraînement des modèles. Empile le blocage des bots IA par-dessus un simple
Disallow: /et tu es couvert même si cet environnement de staging fuite un jour vers le public. Ça arrive. - La conformité avec une politique interne. Certaines boîtes ont juste besoin d'un signal d'opt-out documenté pour tenir tranquilles leurs équipes de gouvernance des données. L'application peut être bancale. Avoir le fichier sur le disque coche quand même la moitié de la case.
Limites et notes sur la confidentialité
Soyons clairs entre nous. robots.txt est le bon premier geste, mais ce n'est pas un mur. C'est une requête polie, point final. Tout ce qui ignore le standard entre quand même comme dans un moulin, que ce soit en scrapant via des proxies résidentiels ou en récupérant tes pages par un intermédiaire (Common Crawl qui alimente un modèle en aval, par exemple). Et ça ne fait rien pour le passé. Si ton contenu a été intégré dans un jeu de données l'an dernier, un robots.txt tout neuf ne le récupérera pas. Les éditeurs lisent aussi un peu différemment le même nom de user-agent, et quelques-uns comme Google-Extended te sortent seulement de l'entraînement tout en te laissant pleinement dans Google Search. Honnêtement, je traiterais robots.txt comme nécessaire mais pas suffisant. C'est peut-être excessivement prudent, mais j'ai arrêté de supposer qu'un seul signal me rend invisible.
Encore un point, vu qu'on me pose la question. Ça tourne entièrement dans ton navigateur. La liste des bots, l'URL de ton sitemap, ces chemins personnalisés, le robots.txt existant que tu colles, rien de tout ça ne quitte ta machine. Rien ne part chez PeopleAreGeek ni chez qui que ce soit d'autre. Le tableau de référence est livré avec la page, et je le rafraîchis dès qu'un éditeur publie un nouveau user-agent.
Questions fréquentes
Bloquer GPTBot va-t-il nuire à mon classement Google ?
Non. C'est de loin l'inquiétude que j'entends le plus. GPTBot est le crawler d'entraînement d'OpenAI et il n'a rien à voir avec Googlebot. Bloque-le et la seule chose qui change, c'est qu'OpenAI ne se servira pas de toi pour entraîner son prochain modèle. Ton classement repose sur Googlebot, que tu as laissé autorisé. Tu veux aussi sortir de l'entraînement IA de Google ? C'est un user-agent séparé, Google-Extended, et lui non plus ne touchera pas à ta visibilité dans la recherche.
Les éditeurs IA respectent-ils vraiment robots.txt ?
Les gros, ceux qu'on connaît, oui. OpenAI, Anthropic, Google, Apple, Perplexity, Meta et Common Crawl ont tous dit haut et fort qu'ils respecteraient le fichier. Et ils ont aussi quelque chose à perdre : une réputation publique d'ignorer le robots.txt, c'est un aimant à procès, et ça grille les accords qu'ils ont signés avec les éditeurs. Les scrapers anonymes et les opérateurs de passage ? Ne compte pas dessus. Les blocages au niveau serveur sont là pour exactement cette catégorie-là.
Quelle est la différence entre les crawlers d'entraînement et les fetchers intégrés ?
Les crawlers d'entraînement, c'est l'opération de masse. Ils balaient les pages à grande échelle, suivent tes liens et se calment le rythme pour constituer les jeux de données sur lesquels un futur modèle apprendra. Les fetchers intégrés comme ChatGPT-User ou PerplexityBot sont chirurgicaux à la place. Une page, tout de suite, parce qu'un utilisateur a demandé à une IA de lire cette URL précise. Ils portent des noms de user-agent différents, donc tu peux bloquer l'un et garder l'autre si c'est ça que tu cherches.
C'est quoi cette histoire d'opt-out de l'Article 4(3) du EU AIA ?
Ça s'appuie sur l'opt-out de la fouille de textes et de données issu de la directive européenne sur le droit d'auteur de 2019. En gros ? Les ayants droit ont le droit de dire non d'une façon lisible par les machines, et un bloc user-agent dans robots.txt est le format que la plupart des éditeurs supportent réellement. Les grosses boîtes d'IA qui s'entraînent sur des données européennes ont accepté de traiter ces blocs comme une manière valable d'exercer son opt-out. Ce n'est pas un bouclier juridique magique. C'est juste le signal sur lequel l'industrie s'est mise d'accord, ce qui vaut mieux que de crier dans le vide.
Devrais-je aussi bloquer Common Crawl (CCBot) ?
Sérieux sur l'idée de rester en dehors de l'entraînement IA ? Alors oui, et franchement c'est peut-être le plus important à attraper. Common Crawl est une archive publique gratuite à partir de laquelle plein de modèles open source démarrent, donc ton contenu là-bas a une fâcheuse tendance à ressurgir discrètement partout en aval. Bloque CCBot et tu restes en dehors de ce jeu de données. Common Crawl joue le jeu du robots.txt et retire les sites bloqués de ses crawls futurs.