OpenAI, société ayant mis au point ChatGPT, a développé GPTBot, un robot d’exploration web. Il parcourt les pages web et collecte des données textuelles. Il les utilise ensuite pour améliorer les performances de ses modèles de langage.
Fonctionnement de GPTBot
GPTBot existe pour aider OpenAI à créer des modèles d’IA plus précis, plus généraux et plus sûrs. En effet, les modèles de langage d’OpenAI, comme ChatGPT, ont besoin de grandes quantités de données textuelles pour apprendre à générer des réponses cohérentes et pertinentes aux requêtes des utilisateurs. En explorant le web, GPTBot peut accéder à une variété de sources d’information, telles que des articles de presse, des blogs, des forums, des réseaux sociaux, etc. OpenAI utilise ces données pour entraîner ou affiner ses modèles d’IA.
GPTBot utilise un agent utilisateur et une chaîne spécifiques pour s’identifier lorsqu’il visite un site web. L’agent utilisateur est GPTBot, et la chaîne complète est Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +6). GPTBot respecte les règles définies dans le fichier robots.txt des sites web. Le fichier indique quelles parties du site sont autorisées ou interdites à l’exploration.
Avantages de GPTBot
GPTBot présente plusieurs avantages pour OpenAI et pour les utilisateurs de ses modèles d’IA. Tout d’abord, GPTBot permet à OpenAI de disposer d’une source de données textuelles fraîches et diversifiées, qui peuvent améliorer la qualité et la fiabilité des réponses générées par ses modèles d’IA. Ensuite, GPTBot contribue à rendre les modèles d’IA plus généraux et plus capables de s’adapter à différents domaines et contextes. Enfin, GPTBot aide à renforcer la sécurité et la responsabilité des modèles d’IA, en filtrant les sources qui nécessitent un accès payant, qui recueillent des informations personnelles identifiables ou qui contiennent du texte qui viole les politiques d’OpenAI.
Mais aussi des inconvénients et des risques
GPTBot n’est pas sans inconvénients ni risques, tant pour OpenAI que pour les propriétaires ou les utilisateurs des sites web qu’il explore. D’une part, GPTBot peut potentiellement enfreindre les droits d’auteur ou la vie privée des auteurs ou des éditeurs des contenus qu’il collecte, en les utilisant sans leur consentement ou en les partageant avec des tiers. D’autre part, GPTBot peut également nuire au fonctionnement ou à la performance des sites web qu’il visite, en consommant trop de bande passante ou en générant trop de trafic. De plus, GPTBot peut être victime ou complice de cyberattaques, en étant détourné ou manipulé par des acteurs malveillants.
Comment contrôler ou limiter l’accès de GPTBot à un site web ?
Heureusement, il existe des moyens de contrôler ou de limiter l’accès de GPTBot à un site web, selon les préférences ou les besoins du propriétaire ou de l’utilisateur du site. Le moyen le plus simple est d’utiliser le fichier robots.txt du site, qui permet de spécifier quelles parties du site sont autorisées ou interdites à l’exploration par GPTBot. Par exemple, pour interdire totalement l’accès de GPTBot à un site, il suffit d’ajouter la ligne suivante au fichier robots.txt :
Pour autoriser partiellement l’accès de GPTBot à un site, il suffit d’ajouter les lignes suivantes au fichier robots.txt :
User-agent: GPTBot ; Disallow: /
Il est également possible de personnaliser son robots.txt en autorisant les bots à se balader sur votre site, uniquement où vous le désirez :
User-agent: GPTBot ; Allow: /directory-1/ ; Disallow: /directory-2/2
Site officiel d’OpenAI.
Illustration en Une, générée par Bing Créateur d’Images.
Sur le même sujet
Faut-il avoir peur de l’intelligence artificielle ? Définitions.