Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Rapport technique sur la détection haute précision des textes générés par l'IA

Bradley Emi et Max Spero
21 février 2024

Processus de formation pour le classificateur de texte généré par IA de Pangram Labs

Introduction

Chez Pangram Labs, nous développons le meilleur modèle de détection de texte par IA afin de protéger Internet contre l'inondation de contenus non authentiques, trompeurs et de mauvaise qualité. Nous croyons qu'dans un monde où les LLM sont omniprésents, les humains auront besoin des meilleurs outils pour identifier la vérité, et nous voulons fournir la technologie adéquate pour répondre à ce besoin.

Pangram Labs a mis au point un classificateur performant capable de détecter les textes générés par l'IA qui pourraient être utilisés à grande échelle dans des contenus frauduleux ou indésirables. En quoi notre modèle est-il supérieur aux autres solutions existantes ? Dans cet article, nous présentons une analyse complète des performances de notre modèle, accompagnée de notre tout premier livre blanc technique public.

Cet article de blog abordera plusieurs sujets :

  • Pourquoi la détection des textes générés par l'IA est-elle un problème important ?
  • Quel détecteur de contenu généré par l'IA est le meilleur ?
  • Pourquoi une grande précision est-elle importante ?
  • Quels types de contenus Pangram Labs peut-il détecter ?
  • Comment Pangram Labs a-t-il abordé la résolution de ce problème ?

Pour une analyse plus technique approfondie, y compris la méthodologie, consultez notre rapport technique sur le classificateur de texte généré par l'IA Pangram.

TL;DR

Nous avons réalisé une analyse comparative concurrentielle à partir de près de 2 000 documents afin de déterminer les principaux indicateurs de précision, notamment la précision globale, les faux positifs et les faux négatifs.

Our text classifier outperforms academic methods and shows significantly lower error rates in a comprehensive benchmark against other available AI text detection methods. Our model demonstrates 99.85% accuracy with 0.19% false positive rate across thousands of examples across ten different categories of writing and eight commonly used large language models. Other methods fail on more capable LLMs such as GPT-4 (<=75% accuracy) while Pangram Labs sustains 99-100% accuracy across all language models tested.

Comparaison globale de la précision

Introduction au texte généré par l'IA

Les grands modèles linguistiques (LLM) tels que ChatGPT ont connu un essor fulgurant en 2023, lorsque les capacités de l'IA ont atteint un point d'inflexion. Les LLM qui alimentent les assistants IA peuvent répondre à des questions, réfléchir, rédiger du contenu, tout en semblant convaincants comme s'ils étaient humains. Cela a donné de bons résultats : l'information est plus accessible que jamais et les assistants peuvent nous faire gagner du temps en effectuant des tâches subalternes. Cependant, n'importe qui peut produire des textes convaincants sans aucun effort, ce qui présente certains inconvénients. Les spammeurs peuvent rédiger des e-mails plus difficiles à filtrer. Les vendeurs sur les marchés en ligne peuvent produire des milliers d'avis authentiques en quelques minutes. Les personnes mal intentionnées peuvent se rendre sur les réseaux sociaux et influencer l'opinion publique à l'aide de milliers de robots alimentés par des LLM.

Malheureusement, ces risques sociétaux ne peuvent être atténués au niveau du LLM : les modèles linguistiques ne sont pas en mesure de déterminer si une requête est légitime ou si elle fait partie des milliers de requêtes générées par un spammeur. C'est pourquoi nous avons besoin de filtres de contenu au niveau de la couche applicative, afin de préserver le caractère humain des espaces humains.

Pourquoi Pangram Labs est obsédé par la précision

Nous avons entendu beaucoup de scepticisme autour de ce domaine d'activité. Que le problème est insoluble, qu'il a été démontré que les détecteurs d'IA « ne fonctionnent pas », ou qu'il suffit de contourner le problème. Ou même si c'est possible aujourd'hui, cela sera plus difficile l'année prochaine, voire impossible lorsque l'AGI fera son apparition.

Notre thèse est légèrement différente. Nous sommes convaincus que ce problème peut non seulement être résolu, mais qu'il est nécessaire de le faire. Peu importe la difficulté, peu importe le nombre d'heures que nous devrons consacrer à la création d'un outil que les utilisateurs pourront utiliser et auquel ils pourront faire confiance. Sans notre travail, ce n'est qu'une question de temps avant que l'Internet ne soit envahi par les spammeurs IA. Les voix humaines seront noyées dans le bruit.

Pour nous, s'assurer que le problème est résolu implique de continuer à augmenter la difficulté de nos ensembles d'évaluation. Les premières évaluations étaient faciles à maximiser à 100 % de précision, mais il est rapidement devenu évident que cela ne reflétait pas la précision réelle. En créant des évaluations plus difficiles, nous sommes en mesure de mesurer nos progrès de manière objective. Nous pensons déjà que notre référence actuelle est légèrement plus difficile que ce que produisent les spammeurs dans le monde réel, et cette référence est proche du maximum. Lorsque nous reviendrons avec de nouveaux chiffres, il pourra sembler que les autres méthodes se sont encore détériorées, mais en réalité, nous reviendrons avec un ensemble d'évaluation plus difficile, les IA les plus performantes étant poussées à leurs limites pour créer des textes qui semblent authentiques, et notre objectif est toujours de pouvoir les détecter avec une précision de 99 %.

Le problème ne sera jamais entièrement résolu, mais nous devons continuer à progresser régulièrement pour éviter de prendre du retard alors que les LLM deviennent de plus en plus performants. C'est ce à quoi nous nous sommes engagés, et c'est ce que nous continuerons à poursuivre jusqu'au bout.

Comparaison des outils de détection de l'IA

Dans notre rapport technique, nous avons comparé Pangram Labs aux deux principaux outils de détection de l'IA, ainsi qu'à une méthode académique de pointe de 2023 pour la détection de l'IA.

Nous comparons :

  • Laboratoires Pangram
  • GPTZero
  • Originalité.ai
  • DétecterGPT

Notre benchmark comprend 1 976 documents, dont la moitié ont été rédigés par des humains et l'autre moitié générés par huit des modèles d'apprentissage automatique les plus populaires, notamment ChatGPT et GPT-4.

Comparaison globale de la précision

Une brève explication de la signification de ces chiffres :

  • Précision: quel pourcentage du total des documents l'outil a-t-il classé correctement ?
  • Taux de faux positifs: parmi tous les documents humains, combien ont été classés à tort comme IA ?
  • Taux de faux négatifs: parmi tous les documents AI, combien ont été incorrectement classés comme humains ?

Pour illustrer concrètement le taux de faux positifs, 9 % signifie qu'un document humain sur 11 sera signalé comme étant généré par l'IA. Un taux de faux positifs de 2 % signifie qu'un document humain sur 50 sera signalé comme étant généré par l'IA. Et 0,67 % signifie qu'un document humain sur 150 sera signalé comme étant généré par l'IA.

De même, un taux de faux négatifs de 10 % signifie qu'un document sur dix passe inaperçu, tandis qu'un taux de faux négatifs de 1,4 % signifie qu'un document sur soixante-dix passe inaperçu.

Considérez les implications de ces résultats. Un modèle de détection avec un taux de faux positifs de 9 % n'est pas fiable, car il donnerait lieu à de nombreuses accusations injustifiées. Et un modèle de détection avec un taux de faux négatifs de 10 % laisserait passer tellement de spams générés par l'IA que, quelle que soit l'attaque, les utilisateurs seraient toujours submergés.

Approfondir les résultats

Notre référence est divisée en deux axes différents : le domaine textuel et l'origine LLM. Le « domaine textuel » ou simplement « domaine » désigne une catégorie spécifique d'écriture. Par exemple, un essai rédigé par un collégien se lit très différemment d'un article scientifique, qui se lit lui-même très différemment d'un e-mail. En divisant les résultats en différents domaines, nous pouvons obtenir une vision plus complète des domaines dans lesquels nous excellons et de ceux dans lesquels nous pouvons concentrer nos efforts pour nous améliorer.

Précision par domaine textuel

Les résultats montrent que Pangram Labs surpasse GPTZero et Originality dans les dix domaines évalués.

L'un des domaines, celui des e-mails, affiche des résultats particulièrement bons, car Pangram Labs n'inclut aucun e-mail dans ses données d'entraînement. Nos performances dans ce domaine reposent entièrement sur l'entraînement d'un modèle robuste qui généralise la plupart des catégories d'écriture qu'un LLM peut produire.

Documents IA correctement classés, par origine LLM

La répartition par origine LLM révèle une autre réalité, à savoir que les modèles de détection d'IA concurrents obtiennent de meilleurs résultats sur les modèles open source moins performants, mais moins bons sur ChatGPT (gpt-3.5-turbo) et ont vraiment du mal avec GPT-4, le LLM le plus performant d'OpenAI. Nous avons évalué plusieurs versions des modèles GPT 3.5 Turbo et GPT-4, car ce sont les plus couramment utilisés dans la pratique.

Nous constatons que nous sommes le seul modèle capable de détecter de manière fiable le texte GPT-4 et que nous surpassons également tous les autres modèles que nous avons testés.

Une observation intéressante est que nos concurrents obtiennent de bien meilleurs résultats sur les modèles open source que sur les modèles GPT et Gemini à code source fermé. Nous émettons l'hypothèse que cela est dû à une dépendance excessive aux caractéristiques de perplexité et de burstiness. Bien que ces caractéristiques soient précieuses, on ne peut calculer avec précision la perplexité et la burstiness que sur un modèle open source : sur les modèles closed source, on ne peut faire qu'une estimation approximative. Cela montre la valeur de notre approche basée sur l'apprentissage profond : elle ne repose pas sur des caractéristiques fragiles comme la perplexité et peut apprendre des modèles sous-jacents plus subtils.

Robustesse

Une question qui nous est souvent posée est la suivante : que se passe-t-il lorsqu'un nouveau modèle linguistique est publié ? Faut-il former chaque nouveau modèle pour détecter ses résultats ? En bref, non. OpenAI a publié deux nouvelles versions de ses LLM au cours des dernières semaines. Sans avoir formé ces nouveaux LLM, nous avons évalué notre modèle et constaté qu'il fonctionnait toujours très bien !

  • GPT-3.5-Turbo-0125 : précision de 99,66 %
  • GPT-4-0125-Aperçu : précision de 99,18 %

Ces nouvelles versions sont similaires aux versions précédentes publiées par OpenAI. La question suivante que nous nous posons est donc la suivante : comment nous en sortons-nous avec des familles de modèles complètement différentes ? Pour y répondre, nous avons évalué notre modèle sur un ensemble de modèles open source que notre classificateur n'avait jamais vus auparavant.

Performance réalisée par un LLM open source, non observée par Pangram Labs pendant la formation.

C'est génial ! Cela s'explique en grande partie par le fait que de nombreux modèles open source sont issus de la famille Llama ou utilisent des ensembles d'entraînement open source similaires, mais cela nous aide à avoir confiance en notre capacité à généraliser sans avoir besoin de nous entraîner sur chaque modèle open source.

Cela dit, notre pipeline de données est conçu de manière à pouvoir générer un nouvel ensemble d'entraînement dans les heures qui suivent la publication d'une API LLM, le seul goulot d'étranglement étant la limite de débit de l'API. Nous sommes bien conscients que les LLM continuent de s'améliorer et, à mesure que nous nous rapprochons de l'AGI, il sera de plus en plus important de rester à jour et de nous assurer que nous pouvons rattraper même les agents IA les plus avancés.

L'anglais comme deuxième langue

Des recherches antérieures ont montré que les détecteurs LLM commerciaux ont systématiquement un parti pris contre les locuteurs non natifs (ESL, ou anglais comme deuxième langue). Pour vérifier cette hypothèse, les chercheurs ont utilisé un échantillon de référence de 91 essais issus du TOEFL (Test of English as a Foreign Language) afin de tester plusieurs détecteurs.

Nous avons conservé les 91 essais TOEFL de notre ensemble de formation et évalué Pangram Labs sur la base de référence. Grâce à notre travail visant à minimiser les taux de faux positifs pour l'ESL, nous rapportons un taux de faux positifs de 0 % sur la base de référence TOEFL, ce qui signifie qu'aucun des essais humains de cette base de référence n'a été classé à tort comme provenant de l'IA.

Comparaison avec le TOEFL

L'approche de Pangram Labs en matière de détection de l'IA

Détecter les contenus générés par l'IA n'est pas une tâche facile. Nous entraînons un modèle d'apprentissage profond avec une architecture basée sur des transformateurs, en utilisant deux méthodes clés pour améliorer la précision de notre modèle.

Miroirs synthétiques

Chaque document de notre ensemble d'apprentissage est étiqueté « Humain » ou « IA ». En apprentissage automatique, nous appelons ces documents des « exemples ».

Nous disposons de millions d'exemples humains issus de bases de données publiques pour l'entraînement, mais aucune base de données équivalente pour l'IA. Nous résolvons ce problème en associant chaque exemple humain à un « miroir synthétique », terme que nous utilisons pour décrire un document généré par l'IA à partir d'un document humain. Nous demandons à un LLM de générer un document sur le même sujet et de même longueur. Pour une partie des exemples, nous demandons au LLM de commencer par la première phrase du document humain, afin de rendre les documents générés par l'IA plus variés.

Exploitation minière négative difficile

Très tôt, nous avons atteint une limite dans l'entraînement de notre modèle. Nous avons essayé d'ajouter davantage d'exemples, mais nous avons finalement constaté que le modèle était « saturé » : l'ajout d'exemples d'entraînement supplémentaires n'améliorait plus le modèle.

Expérience sur les lois d'échelle

Les performances de ce modèle initial n'étaient pas satisfaisantes : il présentait encore un taux de faux positifs supérieur à 1 % dans de nombreux domaines. Nous avons constaté que nous n'avions pas seulement besoin de plus d'exemples, mais aussi d'exemples plus complexes.

Nous avons identifié des exemples plus difficiles en prenant notre modèle initial et en analysant des dizaines de millions d'exemples humains dans des ensembles de données ouverts, à la recherche des documents les plus difficiles que notre modèle avait mal classés. Nous avons ensuite généré des miroirs synthétiques pour ces documents et les avons ajoutés à notre ensemble d'entraînement. Enfin, nous avons réentraîné le modèle et répété le processus.

Processus de formation pour le classificateur de texte généré par IA de Pangram Labs

Grâce à cette méthode d'entraînement, nous avons pu réduire notre taux de faux positifs d'un facteur 100 et livrer un modèle dont nous sommes fiers.

Tableau des taux de faux positifs par domaine

Nous appelons cette méthode « hard negative mining with synthetic mirrors » (extraction négative dure avec miroirs synthétiques) et décrivons le processus plus en détail dans notre rapport technique.

Quelle est la prochaine étape pour Pangram Labs ?

Bien sûr, notre aventure ne s'arrête pas là. Nous avons plein de nouvelles idées pour améliorer encore nos performances. On va continuer à améliorer nos ensembles d'évaluation pour mieux suivre le taux de faux positifs au centième de pour cent près. On prévoit d'étendre notre modèle à d'autres langues que l'anglais et on travaille à comprendre et à repérer nos échecs. Restez à l'affût de nos prochaines actions !

Vous avez des questions ou des commentaires ? Contactez-nous à l'adresse info@pangram.com!

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.