Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Une étude indépendante montre que Pangram est le détecteur d'IA le plus performant

Bradley Emi
30 octobre 2024

Une étude indépendante montre que Pangram est le détecteur d'IA le plus performant

Des chercheurs de l'université de Houston, de l'université de Californie à Berkeley, de l'université de Californie à Irvine et de la start-up Esperanto AI ont découvert que Pangram est le détecteur de texte IA le plus robuste parmi une grande variété de méthodes commerciales et open source. Dans l'article intitulé « Esperanto : Évaluation des phrases synthétisées pour améliorer la robustesse de la détection IA pour l'origine du texte », les chercheurs ont étudié les effets de la traduction linguistique sur la capacité des détecteurs IA.

Exploiter les détecteurs d'IA à l'aide de traducteurs

Il est bien connu que pour contourner la détection par IA, il suffit de traduire un texte généré par IA dans une langue étrangère à l'aide de Google Translate, puis de le retraduire en anglais. Cela permet à un adversaire (ou simplement à un étudiant malin et pressé par le temps) d'échapper aux programmes de détection par IA. Chez Pangram, nous appelons cette attaque « double traduction », et les chercheurs la désignent sous le nom de « retraduction ». Voici un exemple de double traduction. Nous demandons à ChatGPT d'écrire un texte pour nous. Nous traduisons d'abord le texte en japonais, puis nous le retraduisons en anglais. Nous remarquons que certaines phrases ont changé, car les logiciels de traduction ne sont pas parfaits et qu'il existe souvent plusieurs façons de dire la même chose. Cela a un effet similaire à celui d'un outil de paraphrase comme Quillbot.

Texte généré par ChatGPT Texte traduit deux fois Un exemple de double traduction

Beaucoup de nos concurrents ne sont pas à l'épreuve de cette faille. Ci-dessus, vous trouverez l'un des détecteurs d'IA concurrents les plus courants sur le marché. Nous constatons que le modèle peut détecter l'IA directement à partir de ChatGPT, mais qu'après une double traduction, il ne prédit que 15 % d'IA.

Résultats de GPTZero Un outil concurrent très populaire classe correctement le texte original généré par l'IA, mais classe de manière erronée le texte traduit deux fois comme étant rédigé par un humain.

Pangram, cependant, est capable de prédire à 99,99 % que le texte original de ChatGPT et le texte traduit deux fois sont générés par une IA. Non seulement nous sommes en mesure de prédire qu'il s'agit d'un texte généré par une IA, mais nous pouvons également affirmer avec certitude que c'est GPT-4 qui en est la source originale. Les chercheurs ont entrepris d'étudier ce phénomène de manière générale, à grande échelle.

Résultats Pangram Pangram identifie correctement le texte original et le texte traduit deux fois comme étant générés par l'IA.

Étude de l'effet de la retraduction sur 720 000 documents

Un seul exemple ne suffit pas pour prouver que notre détecteur est fiable et que les autres ne le sont pas. Dans le cadre de cette étude, les chercheurs ont rassemblé des milliers d'articles d'actualité, de résumés d'articles scientifiques, de publications Reddit et d'avis sur des produits dont l'origine humaine a été confirmée. Ils ont ensuite généré plusieurs exemples d'IA à l'aide de GPT-3.5-Turbo, LLaMA 3, Mistral, Phi3 et Yi.

Dans l'ensemble, même avant d'utiliser une attaque par traduction, bon nombre des méthodes open source et des détecteurs commerciaux sont en réalité totalement inefficaces.

Tout d'abord, un seuil a été choisi : cela signifie que nous avons sélectionné le pourcentage à partir duquel nous considérons qu'un document est généré par une IA. La plupart des détecteurs d'IA fournissent un pourcentage comme résultat final. Afin de mettre tous les détecteurs sur un pied d'égalité, les seuils ont été choisis de manière à ce que chaque modèle ait un taux de faux positifs de 1 %. Ensuite, la précision du détecteur peut être comparée en tant que fraction de vrais positifs : combien d'exemples générés par une IA chaque détecteur peut-il détecter à ce seuil ?

La plupart des autres méthodes étudiées dans cet article échouent complètement à détecter le contenu généré par l'IA. Par exemple, ZeroGPT et GPTZero ne parviennent même pas à atteindre un taux de faux positifs de 1 % quel que soit le seuil utilisé dans certains domaines, et des articles universitaires très cités tels que RADAR et LLMDet affichent une précision inférieure à 50 %.

La mesure proposée pour évaluer les performances consiste à mesurer le TPR @ 1 % FPR : cela signifie que, compte tenu d'un taux de faux positifs constant de 1 %, à quelle fréquence le modèle peut-il détecter un texte généré par l'IA ? ZeroGPT ne parvient même pas à atteindre un taux de faux positifs de 1 % à aucun seuil dans la plupart des domaines, et des articles universitaires très cités tels que RADAR et LLMDet obtiennent des résultats bien inférieurs à 50 % pour cette mesure.

Par ailleurs, Pangram atteint un taux de rappel supérieur à 96 % sur tous les domaines avec un taux de faux positifs (FPR) de 1 %, et atteint même 85 % sur l'ensemble de données difficile des avis, qui contient des avis ne comportant que 40 à 50 mots (ce qui est bien inférieur au seuil de nombre de mots que nous recommandons pour détecter l'IA dans le commerce).

Après une double attaque par traduction, de nombreux détecteurs échouent complètement. GPTZero, par exemple, passe de 97 % à seulement 42 % dans le domaine de l'actualité et de 65 % à 9 % dans le domaine des critiques. Les chercheurs concluent : « Les résultats obtenus par GPTZero et ZeroGPT indiquent un manque de robustesse face aux techniques de retraduction... Pangram fait preuve d'une certaine robustesse, en particulier sur les textes plus longs. »

Les résultats complets sont reproduits ici. Pangram affiche des performances supérieures dans toutes les catégories.

Tableau comparatif des détecteurs d'IA Tableau des résultats tiré de l'article sur l'espéranto démontrant la robustesse de Pangram

Conclusion

Cette recherche confirme notre affirmation selon laquelle Pangram est le seul logiciel de détection d'IA actuellement disponible sur le marché qui fonctionne de manière suffisamment fiable pour être utilisé dans des contextes universitaires et commerciaux, et qui ne peut être contourné par des astuces telles que la double traduction.

Ce n'est ni un hasard ni une coïncidence. La robustesse de Pangram témoigne de la puissance d'un modèle qui sait généraliser et qui s'appuie sur de grands ensembles de données et notre approche d'apprentissage actif ciblé. Si n'importe qui peut créer un outil de détection IA qui fonctionne parfois, voire la plupart du temps, notre approche évolutive est la seule qui permette d'obtenir une précision fiable et constante qui ne s'effondre pas complètement lorsque le texte est modifié ou altéré.

Nous travaillons sans relâche à l'amélioration des performances et de la robustesse de notre modèle de détection basé sur l'IA. Nous nous tenons informés des dernières avancées en matière de recherche sur l'apprentissage automatique antagoniste et testons en permanence notre propre modèle afin de le protéger contre d'éventuelles attaques et contournements.

Plus d'informations à venir prochainement sur ce sujet !

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.