Bloquer le crawl de ChatGPT ou OpenAI
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Bloquer ChatGPT et OpenAI sur son site

OpenAi et ChatGPT peuvent utiliser les contenus de votre site pour "apprendre" (et fournir des réponses). Si vous souhaitez (essayer de) les bloquer, lisez cet article.

En résumé :

  • ChatGPT utilise plusieurs robots (crawlers) que vous pouvez autoriser ou interdire
  • GPTBot est utilisé en permanence, pour amasser des données (apprentissage)
  • ChatGPT-User est utilisé par les GPT personnalisés ou si un prompt demande d'aller crawler
  • OAI-SearchBot est utilisé par le moteur de recherche de ChatGPT

Je réponds d'abord à la question principale, avant d'apporter quelques nuances...

Comment interdire le crawl de son site par ChatGPT et OpenAI ?

Depuis août 2023, le robot de ChatGPT est GPTBot

OpenAI (la société qui gère GPT et ChatGPT) a officialisé le nom du robot désormais utilisé pour récolter des données sur lesquelles ses outils d'IA générative se basent (donnée d'entraînement). Je liste toutes mes sources en fin d'article.

Le nom d'agent du robot de ChatGPT est GPTBot. La version longue du User Agent de ChatGPT est :

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Pour bloquer le crawl de votre site par ChatGPT, il faut ajouter ces 2 lignes :

User-Agent: GPTBot
Disallow: /

Pour autoriser explicitement ChatGPT à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: GPTBot
Disallow: 

Bien entendu, c'est à adapter à votre situation. Lisez mon guide du fichier robots.txt pour savoir comment interdire le crawl d'un répertoire, ou d'un sous-domaine, ou d'autres cas plus spécifiques.

Comment interdire le crawl par les GPT de ChatGPT ?

ChatGPT peut également venir crawler votre site en direct (pas pendant sa phase d'apprentissage, qui est permanente). C'est le cas par exemple des GPT (ce sont des versions spéciales de ChatGPT créées par des utilisateurs payants). C'était le cas également des plugins quand ils existaient en 2023 et 2024.

C'est aussi ce qui arrive si un utilisateur de ChatGPT demande spécifiquement dans son prompt d'exploiter le contenu situé sur votre site.

Dans ce cas, le crawler s'identifie comme ChatGPT-User  :

  • le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est ChatGPT-User
  • le nom d'agent complet (visible dans les logs) est Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Pour interdire le crawl aux GPT de ChatGPT, il faut ajouter ces 2 lignes à votre fichier robots.txt :

User-Agent: ChatGPT-User
Disallow: /

Pour autoriser explicitement les GPT à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: ChatGPT-User
Disallow: 

Comment interdire le crawl de ChatGPT Search ?

Depuis novembre 2024, ChatGPT existe aussi sous la forme d'un moteur de recherche. Temporairement appelé SearchGPT, il s'appelle ChatGPT Search.

Ce moteur se base en partie sur Bing (le moteur de recherche de Microsoft) et également sur son propre crawl, réalisé avec OAI-SearchBot :

  • le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est OAI-SearchBot
  • le nom d'agent complet (visible dans les logs) est Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot

Pour interdire le crawl au moteur ChatGPT Search, il faut ajouter ces 2 lignes à votre fichier robots.txt :

User-Agent: OAI-SearchBot
Disallow: /

Pour autoriser explicitement ChatGPT Search à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: OAI-SearchBot
Disallow:

Résumé : les crawlers de ChatGPT

Voici les 3 crawlers utilisés par ChatGPT :

Crawler (user-agent)Description
GPTBotOpenAI utilise GPTBot pour enrichir sa base de connaissances et entraîner ChatGPT pour l'IA générative. Son nom d'agent complet est :
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
OAI-SearchBotOAI-SearchBot est utilisé par le moteur de recherche de ChatGPT ainsi que pour des fonctions de recherche d'OpenAI. Il n'est pas utilisé pour explorer le contenu afin d'entraîner les modèles génératifs d'IA. Si vous le bloquez, votre site ne sera pas listé dans les résultats de ChatGPT Search. Son nom d'agent complet est :
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
ChatGPT-UserChatGPT-User est destiné aux actions des utilisateurs dans ChatGPT et dans les GPT personnalisés. Lorsque les utilisateurs posent une question à ChatGPT ou à un GPT, celui-ci peut visiter une page pour aider à répondre et inclure un lien vers la source dans sa réponse. Les utilisateurs de ChatGPT peuvent également interagir avec des applications externes par le biais d'actions GPT. ChatGPT-User n'est pas utilisé pour explorer le web de manière automatique, ni pour explorer du contenu pour l'entraînement à l'IA générative. Son nom d'agent complet est :
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Description des crawlers de ChatGPT

Crawl avant l'été 2023

Ce qui suit n'est pas basé sur la documentation officielle d'OpenAI mais sur mes recherches et mon expérience. Il est donc possible que les informations soient en partie fausses, mais attention : ChatGPT a tout de même utilisé les robots décrits ci-dessous dans sa phase initiale.

ChatGPT (et les produits d'OpenAI, et par extension Bing) utilise plusieurs sources de données (datasets) pour entraîner ses algorithmes d'apprentissage. D'après mes recherches, il y en aurait "beaucoup", au moins celles-ci :

  • Common Crawl
  • WebText2
  • Books1 et Books2
  • Wikipedia

Le seul dataset sur lequel vous pouvez essayer d'agir est celui de Common Crawl.

Pour cela, si vous souhaitez essayer d'interdire l'accès à votre site à ChatGPT, il faut lui interdire le crawl à l'aide d'une directive dans le fichier robots.txt. Bien entendu, ça n'aura d'impact que pour l'avenir...

Pour Common Crawl, le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est CCBot.

Pour interdire le crawl à CCBot de tout le site, il faut ajouter ces 2 lignes :

User-Agent: CCBot
Disallow: /

Pour autoriser explicitement CCBot à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: CCBot
Disallow: 

Bien entendu, c'est à adapter à votre situation. Lisez mon guide du fichier robots.txt pour savoir comment interdire le crawl d'un répertoire, ou d'un sous-domaine, ou d'autres cas plus spécifiques.

Selon la documentation de Common Crawl :

  • le robot de Common Crawl tient également compte du nofollow en ce qui concerne la découverte des URL. Vous pouvez interdire son robot de suivre tous les liens d'une page en ajoutant la balise <meta name="CCBot" content="nofollow">
  • il tient compte aussi des sitemaps (listés dans le robots.txt)
  • son adresse IP fait partie de celles utilisées par les services cloud d'Amazon S3

Lisez bien la suite où j'explique que c'est sans doute vain...

Est-ce vraiment possible d'empêcher ChatGPT et OpenAI de crawler un site ?

Non, il n'est pas possible de s'assurer que vos contenus ne sont pas exploités par ChatGPT et OpenAI.

D'abord, vos contenus ont peut-être déjà été utilisés. Il n'existe pas de moyen (actuellement) pour faire retirer un contenu d'un dataset.

Ensuite, il est quasi certain que vos contenus sont dans d'autres datasets que Common Crawl.

Enfin, je suppose qu'il y a sans doute d'autres raisons techniques qui font que vous ne pouvez pas garantir que ces IA n'iront pas exploiter vos contenus...

Est-ce une bonne idée de vouloir bloquer OpenAI et son chat ?

Sur le fond, je trouve que c'est normal de vouloir contrôler si un tiers a le droit ou pas d'exploiter (gratuitement) les contenus publiés sur votre site.

Nous avons été habitués à fonctionner avec une sorte d'accord tacite entre les moteurs de recherche et les éditeurs de sites. Ces derniers autorisent par défaut les moteurs de recherche à crawler et indexer leurs contenus, en échange d'une visibilité gratuite offerte dans les pages de résultats. Et donc d'un apport de visiteurs.

Dans le cas des outils à base d'IA, si aucune de leurs sources n'est indiquée dans la réponse fournie à l'utilisateur, alors ce type d'accord tacite n'existe plus.

J'ai l'impression qu'avec les plugins de ChatGPT, c'est bien plus probable que vos contenus soient mentionnés (s'ils ont été crawlés par ces plugins).

Je note aussi que la recherche conversationnelle de Bing (qui exploite ChatGPT) mentionne des sources (avec des liens), mais j'ai l'impression qu'il s'agit surtout de ce que Bingbot a trouvé. Si c'est bien le cas, le blocage de ChatGPT n'est pas concerné ici.

Mais exclure son site de ces outils est-elle vraiment la meilleure chose à faire ? N'est-ce pas ça aussi l'avenir de la recherche ? Et si jamais ces outils en viennent à mentionner leurs sources, ne pas y être devient une faiblesse dans votre stratégie de search marketing...

À ce sujet, ne manquez pas :

Sources :

Cet article vous a-t-il plu ?

Note : 3.6 (5 votes)
Cliquez pour voter !

Si vous avez des questions, posez-les dans le forum WebRankInfo.

Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO

4 commentaires

Flo

Bonjour Olivier,

Merci pour cet article. J'ai récemment bloqué certains bots au sein de mon robots.txt et en faisant un pagespeed insight ce matin, l'outil m'indique une erreur "Unknown directive" pour les lignes suivantes :

UserAgent: GPTBot
Disallow: /

UserAgent: CCBot
Disallow: /

UserAgent: ChatGPT-User
Disallow: /

Olivier Duffez

Désolé, j'avais écrit UserAgent dans mon article alors que c'est User-Agent

Mango

Merci pour cet article, très clair pour ce qui est des techniques basiques d'exclusion d'agents de robots.

Pour ma part, je crois que l'indiquer dans le fichier robots.txt revient à mettre un panneau sens interdit, tout en laissant la voie ouverte. Donc lorsque j'exclue un groupe d'incides (host, User Agent, P), assimilant ces visites à du piratage, je renvoie une page quasiment vide.

Pour l'instant j'autorise GPTbot à visiter mes pages, conscient que les AI sont "conversationnels" et pas prescripteurs de sites.

D'ailleurs, je ne pense pas que ces AI aient pour l'instant plus de capacité que les moteurs de sortir le meilleur ou les 10 meilleurs sites répondant à une requête.

Mais je crois aussi que la concurrence entre eux, et la demande du public, les incitera dans un avenir plus ou moins proche à placer des liens externes dans leurs réponses.

Les commentaires sont fermés