Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Pourquoi la perplexité et la volatilité ne permettent pas de détecter l'IA

Bradley Emi
4 mars 2025

Lorsque vous recherchez en ligne comment fonctionnent les détecteurs d'IA, vous trouverez généralement de nombreuses sources citant les termes « perplexité » et « burstiness ». Que signifient ces termes et pourquoi ne fonctionnent-ils finalement pas pour détecter le contenu généré par l'IA ? Aujourd'hui, je souhaite vous expliquer ce que sont la perplexité et la burstiness, et pourquoi elles ne sont pas adaptées à la détection des textes générés par l'IA. Nous verrons également pourquoi ils ne fonctionnent pas, pourquoi les détecteurs basés sur la perplexité et la burstiness citent à tort la Déclaration d'indépendance comme étant générée par l'IA, et pourquoi ces détecteurs sont également biaisés à l'encontre des locuteurs non natifs de l'anglais. C'est parti !

Que sont la perplexité et la burstiness ?

Nous commencerons par une définition imprécise et non technique de la perplexité, afin d'avoir une idée générale de ce qu'est la perplexité et de son rôle. Pour plus d'informations sur la perplexité, j'ai trouvé cet article explicatif de deux minutes très utile.

La perplexité correspond au degré d'imprévisibilité ou de surprise de chaque mot d'un texte, lorsqu'on l'examine du point de vue d'un modèle linguistique particulier ou d'un LLM.

Voici par exemple deux phrases. Concentrons-nous sur le dernier mot de chaque phrase, à des fins de démonstration. Dans le premier exemple, le dernier mot présente une faible perplexité, tandis que dans le second exemple, le dernier mot présente une perplexité élevée.

Faible perplexité:

Aujourd'hui, j'ai mangé un bol de *soupe* pour le déjeuner.

Perplexité élevée:

Aujourd'hui, j'ai mangé un bol de *araignées* pour le déjeuner.

La raison pour laquelle la deuxième phrase est très déroutante est qu'il est très rare qu'un modèle linguistique trouve des exemples de personnes mangeant des bols d'araignées dans son ensemble de données d'entraînement. Il est donc très surprenant pour le modèle linguistique que la phrase se termine par « araignées », plutôt que par « soupe », « sandwich » ou « salade ».

Le mot « perplexité » vient de la même racine que le mot « perplexe », qui signifie « confus » ou « déconcerté ». Il est utile de considérer la perplexité comme la confusion du modèle linguistique : lorsqu'il rencontre quelque chose qui lui est inconnu ou inattendu, par rapport à ce qu'il a lu et assimilé au cours de sa procédure d'apprentissage, on peut alors considérer que le modèle linguistique est déconcerté ou troublé par la complétion.

D'accord, très bien, mais qu'en est-il de la burstiness ? La burstiness est le changement de perplexité au cours d'un document. Si des mots et des phrases surprenants sont disséminés tout au long du document, on dira que celui-ci présente une burstiness élevée.

Comment fonctionnent les détecteurs basés sur la perplexité et la burstiness ?

Malheureusement, la plupart des détecteurs commerciaux (à l'exception de Pangram) ne sont pas transparents quant à leur méthodologie, mais d'après ce que l'on comprend de leurs descriptions, le texte humain est considéré comme ayant une perplexité et une irrégularité plus élevées que le texte généré par l'IA, et le texte généré par l'IA a une probabilité et une irrégularité plus faibles.

Nous pouvons voir une visualisation de cela ci-dessous ! J'ai téléchargé le modèle GPT-2 sur Huggingface et j'ai calculé la perplexité de tout le texte contenu dans deux documents : un ensemble d'avis sur des restaurants rédigés par des humains et un ensemble d'avis générés par l'IA. J'ai ensuite surligné en bleu le texte à faible perplexité et en rouge le texte à forte perplexité.

Visualisation de la perplexité comparant l'IA et le texte humain

Comme vous pouvez le constater, le texte généré par l'IA est entièrement bleu foncé, ce qui suggère des valeurs de perplexité uniformément faibles. Le texte généré par l'homme est principalement bleu, mais comporte des pics rouges. C'est ce que nous appellerions une forte irrégularité.

C'est cette idée qui inspire les détecteurs de perplexité et d'explosivité. Non seulement certains des premiers détecteurs d'IA commerciaux sont basés sur cette idée, mais elle a également inspiré certaines publications universitaires telles que DetectGPT et Binoculars.

Pour être tout à fait honnête, ces détecteurs de perplexité et d'irrégularité fonctionnent parfois ! Nous ne pensons simplement pas qu'ils puissent fonctionner de manière fiable dans des contextes à haut risque où toute inexactitude doit être évitée, comme dans une salle de classe, où une fausse détection positive par l'IA peut potentiellement nuire à la confiance entre l'enseignant et l'élève, ou pire encore, créer des preuves inexactes dans une affaire judiciaire.

Inconvénient n° 1 : le texte dans l'ensemble d'apprentissage est classé à tort comme IA.

Pour ceux qui ne savent pas comment les LLM sont créés, avant que les LLM puissent être déployés et utilisés comme chatbots, ils doivent d'abord subir une procédure appelée « entraînement ». Pendant l'entraînement, le modèle linguistique examine des milliards de textes et apprend les schémas linguistiques sous-jacents de ce qu'on appelle son « ensemble d'entraînement ».

Les détails mécaniques précis de la procédure d'entraînement dépassent le cadre de cet article, mais le point essentiel à retenir est que, dans le processus d'optimisation, le LLM est directement incité à minimiser la perplexité sur les documents de son ensemble d'entraînement ! En d'autres termes, le modèle apprend au fil du temps que les fragments de texte qu'il voit de manière répétée dans sa procédure d'entraînement doivent présenter le moins de perplexité possible.

Pourquoi est-ce un problème ?

Étant donné que le modèle doit rendre les documents de son ensemble d'apprentissage peu complexes, les détecteurs de complexité et de burstiness classent les documents courants de l'ensemble d'apprentissage comme étant générés par l'IA, même lorsque ces documents ont en réalité été rédigés par des humains !

C'est pourquoi les détecteurs d'IA basés sur la perplexité classent la Déclaration d'indépendance comme générée par l'IA : comme la Déclaration d'indépendance est un document historique célèbre qui a été reproduit dans d'innombrables manuels scolaires et articles Internet, elle apparaît très souvent dans les ensembles de formation de l'IA. Et comme le texte est exactement le même à chaque fois qu'il apparaît pendant l'entraînement, le modèle peut mémoriser ce qu'est la Déclaration d'indépendance lorsqu'il la voit, puis attribuer automatiquement à tous les tokens une perplexité très faible, ce qui rend également le burstiness très faible.

J'ai appliqué la même visualisation ci-dessus à la Déclaration d'indépendance, et nous observons la même signature IA : une couleur bleue profonde et uniforme sur l'ensemble du texte, indiquant que chaque mot présente un faible niveau de perplexité. Du point de vue d'un détecteur basé sur la perplexité et la burstiness, la Déclaration d'indépendance est totalement impossible à distinguer d'un contenu généré par IA.

Il est intéressant de noter que la première phrase de la Déclaration d'indépendance est encore plus bleue et moins perplexe que le reste. Cela s'explique par le fait que la première phrase est de loin la partie la plus reproduite du passage et qu'elle apparaît le plus fréquemment dans l'ensemble de données d'entraînement GPT-2.

Visualisation de la complexité de la Déclaration d'indépendance

De même, nous constatons que d'autres sources courantes de données d'entraînement des LLM présentent également des taux élevés de faux positifs avec les détecteurs de perplexité et de burstiness. Wikipédia est un ensemble de données d'entraînement très courant en raison de sa grande qualité et de sa licence sans restriction : il est donc extrêmement fréquent qu'il soit faussement prédit comme étant généré par l'IA, car les modèles linguistiques sont directement optimisés pour réduire la perplexité sur les articles de Wikipédia.

Ce problème s'aggrave à mesure que l'IA continue de se développer et de devenir plus avancée, car les modèles linguistiques les plus récents sont extrêmement gourmands en données : les robots d'indexation d'OpenAI, de Google et d'Anthropic parcourent frénétiquement Internet au moment même où vous lisez cet article, continuant à ingérer des données pour l'entraînement des modèles linguistiques. Les éditeurs et les propriétaires de sites web doivent-ils s'inquiéter du fait que le fait d'autoriser ces robots à explorer leur site web pour l'entraînement des LLM pourrait signifier que leur contenu pourrait être classé à tort comme généré par l'IA à l'avenir ? Les entreprises qui envisagent de concéder une licence pour leurs données à OpenAI doivent-elles évaluer le risque que ces données soient également réutilisées à tort comme IA une fois qu'elles auront été ingérées par les LLM ? Nous trouvons cela tout à fait inacceptable, et c'est un problème qui s'aggrave avec le temps.

Inconvénient n° 2 : la perplexité et la burstiness varient selon les modèles linguistiques

Un autre problème lié à l'utilisation de la perplexité et de la burstiness comme indicateurs de détection est qu'ils sont relatifs à un modèle linguistique particulier. Ce qui peut être attendu pour GPT, par exemple, ne l'est pas nécessairement pour Claude. Et lorsque de nouveaux modèles apparaissent, leur perplexité est également différente.

Les détecteurs dits « boîte noire » basés sur la perplexité doivent choisir un modèle linguistique pour mesurer la perplexité réelle. Mais lorsque la perplexité de ce modèle linguistique diffère de celle du générateur, les résultats obtenus sont extrêmement imprécis, et ce problème ne fait que s'aggraver avec la sortie de nouveaux modèles.

Inconvénient n° 3 : les modèles commerciaux ne révèlent pas toujours la perplexité

Les fournisseurs de code source fermé ne fournissent pas toujours les probabilités de chaque jeton, vous ne pouvez donc même pas calculer la perplexité pour les modèles commerciaux à code source fermé, tels que ChatGPT, Gemini et Claude. Au mieux, vous pouvez utiliser un modèle open source pour mesurer la perplexité, mais cela pose les mêmes problèmes que l'inconvénient n° 2.

Inconvénient n° 4 : les textes rédigés dans un anglais non natif (ESL) sont classés à tort comme relevant de l'IA.

Une rumeur circule selon laquelle la détection par IA serait biaisée à l'encontre des locuteurs non natifs de l'anglais, étayée par une étude réalisée en 2023 par l'université de Stanford sur 91 dissertations TOEFL. Bien que Pangram compare de manière exhaustive les textes rédigés dans un anglais non natif et les intègre à notre ensemble de données d'apprentissage afin que le modèle soit capable de les reconnaître et de les détecter, les détecteurs basés sur la perplexité présentent effectivement un taux élevé de faux positifs sur les textes rédigés dans un anglais non natif.

La raison en est que les textes rédigés par les apprenants de langue anglaise sont généralement moins complexes et moins irréguliers. Nous pensons que ce n'est pas un hasard : cela s'explique par le fait que, pendant le processus d'apprentissage de la langue, le vocabulaire de l'élève est nettement plus limité et que celui-ci n'est pas non plus capable de former des structures de phrases complexes qui sortiraient de l'ordinaire ou qui surprendraient fortement un modèle linguistique. Nous soutenons que l'apprentissage de l'écriture avec un niveau élevé de perplexité et de burstiness, tout en restant linguistiquement correct, est une compétence linguistique avancée qui s'acquiert avec l'expérience de la langue.

Les locuteurs non natifs de l'anglais, et par extension, selon nous, les étudiants neurodivers ou handicapés, sont plus susceptibles d'être détectés par les détecteurs d'IA basés sur la perplexité.

Inconvénient n° 5 : les détecteurs basés sur la perplexité ne peuvent pas s'améliorer de manière itérative

Ce que nous considérons comme le plus grand défaut des détecteurs basés sur la perplexité, et la raison pour laquelle nous avons choisi chez Pangram une approche basée sur l'apprentissage profond, c'est que ces détecteurs basés sur la perplexité ne peuvent pas s'améliorer automatiquement avec les données et l'échelle de calcul.

Qu'est-ce que cela signifie ? À mesure que Pangram acquiert plus d'expérience avec les textes humains grâce à notre algorithme d'apprentissage actif, il s'améliore progressivement. C'est ainsi que nous avons fait passer notre taux de faux positifs de 2 % à 1 %, puis à 0,1 %, et maintenant à 0,01 %. Les détecteurs basés sur la perplexité ne sont pas capables de s'améliorer en voyant plus de données.

Ressources et lectures complémentaires

Conclusion

Il existe une grande différence entre le calcul d'une statistique corrélée à l'écriture générée par l'IA et la création d'un système de qualité industrielle capable de détecter de manière fiable l'écriture générée par l'IA. Si les détecteurs basés sur la perplexité capturent un aspect important de ce qui rend l'écriture humaine humaine et l'écriture IA IA, pour les raisons décrites dans cet article, vous ne pouvez pas utiliser un détecteur basé sur la perplexité pour détecter de manière fiable l'écriture générée par l'IA tout en maintenant un taux de faux positifs suffisamment bas pour les applications industrielles.

Dans des domaines tels que l'éducation, où il est essentiel d'éviter les faux positifs, nous espérons voir davantage de recherches s'orienter vers des méthodes basées sur l'apprentissage profond et s'éloigner des méthodes basées sur la perplexité et la burstiness, ou sur des métriques.

Nous espérons que cela vous aidera à comprendre pourquoi Pangram a choisi de ne pas utiliser la perplexité et la burstiness pour détecter les textes générés par l'IA, et de se concentrer plutôt sur des méthodes fiables et évolutives.

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.