Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Quelle est la précision de la détection Pangram AI sur ESL ?

Bradley Emi
23 avril 2025

Une critique courante à l'égard des détecteurs d'IA est qu'ils sont biaisés à l'encontre des locuteurs non natifs de l'anglais. Les textes rédigés par des locuteurs non natifs de l'anglais sont appelés ESL (English as a Second Language, ou anglais comme deuxième langue), ou plus précisément ELL (English Language Learners, ou apprenants de la langue anglaise). Dans un article précédent, nous avons expliqué pourquoi d'autres détecteurs d'IA basés sur la perplexité et la burstiness sont susceptibles de présenter ce défaut.

Les locuteurs non natifs de l'anglais ne disposent pas d'un vocabulaire suffisamment riche ni d'une maîtrise suffisante des structures syntaxiques complexes de l'anglais pour écrire de manière très spontanée. C'est pourquoi les précédentes tentatives de détection de l'IA ont échoué : elles ont souvent confondu l'anglais langue seconde (ESL) avec des textes générés par l'IA, ce qui a entraîné un taux élevé de faux positifs pour l'ESL.

Études antérieures sur la détection de l'IA et l'ESL

Une étude notable de Stanford a été publiée en juillet 2023 par Weixin Liang, James Zou et d'autres, affirmant que les détecteurs GPT sont biaisés à l'encontre des auteurs non anglophones. Bien que l'étude ait été menée sur un échantillon de petite taille (seulement 91 essais issus de l'examen TOEFL) et qu'elle présente certaines lacunes méthodologiques (les auteurs ont décidé de classer les textes humains modifiés par GPT-4 comme « humains » lors des tests des détecteurs), dans l'ensemble, les résultats ont montré que les sept détecteurs d'IA testés (Pangram n'a pas été testé dans cette étude) présentaient un fort biais à l'encontre des textes rédigés en anglais langue seconde, avec plus de 60 % des échantillons de textes rédigés en anglais langue seconde signalés comme étant générés par l'IA.

Une étude plus récente, datant d'août 2024, menée par l'ETS, un centre de services de test qui administre le GRE, un test standardisé pour l'admission à l'université, a également mené une étude à plus grande échelle sur environ 2 000 échantillons d'écriture provenant de locuteurs non natifs de l'anglais au GRE, sur des détecteurs simples d'apprentissage automatique qu'ils ont eux-mêmes formés sur des caractéristiques artisanales, y compris la perplexité. Ils n'ont constaté aucun biais dans leurs propres détecteurs à l'égard de l'anglais non natif, bien que le cadre expérimental ait été très simplifié et artificiel, et qu'il existe des différences importantes entre cette étude et le monde réel. De plus, ils n'ont pas étudié les détecteurs commerciaux qui sont réellement utilisés dans la pratique. Néanmoins, l'étude met en évidence un point intéressant : lorsque les données provenant de locuteurs non natifs de l'anglais sont suffisamment représentées dans l'ensemble de formation, le biais qui en résulte est suffisamment atténué.

Performance de Pangram sur ESL

Afin de mesurer le taux de faux positifs de Pangram sur les données ESL, nous avons exécuté le détecteur d'IA de Pangram sur quatre ensembles de données ESL publics (nous conservons ces ensembles de données pendant la formation, afin d'éviter toute fuite entre la formation et le test).

Les ensembles de données que nous étudions comprennent :

Les résultats sont présentés ci-dessous.

Ensemble de donnéesTaux de faux positifsTaille de l'échantillon
ELLIPSE0.00%3,907
ICNALE0.018%5,600
PELIC0.045%15,423
Liang TOEFL0%91
Dans l'ensemble0.032%25,021

Le taux global de faux positifs de Pangram est de 0,032 %, ce qui n'est pas significativement plus élevé que notre taux général de faux positifs de 0,01 %.

Pangram contre TurnItIn

Nous comparons directement Pangram à TurnItIn en utilisant les mêmes ensembles de données que ceux utilisés par TurnItIn dans une évaluation publique de son indicateur d'écriture IA.

Nous évaluons à la fois l'anglais « L1 » (non ESL) et « L2 » (ESL) à partir des mêmes ensembles de données que TurnItIn. Étant donné que TurnItIn n'évalue pas les documents de plus de 300 mots, nous appliquons le même filtrage à l'ensemble de données avant l'évaluation.

Ensemble de donnéesPangram FPRTurnItIn FPR
L2 Anglais 300 mots et plus0.02%1.4%
L1 Anglais 300 mots et plus0.00%1.3%

Nous constatons que Pangram est deux fois plus précis que TurnItIn sur les textes en anglais langue seconde et que Pangram ne détecte aucun faux positif sur les textes en anglais langue maternelle dans cette étude.

Pangram contre GPTZero

GPTZero rapporte lui-même un taux de faux positifs de 1,1 % dans l'étude originale de Liang sur le TOEFL, bien que 6,6 % des données du TOEFL de Liang soient également classées à tort comme « contenu potentiellement généré par l'IA ».

En comparaison, Pangram ne signale aucun faux positif dans l'ensemble de données Liang TOEFL, et nous sommes très confiants dans chaque exemple.

Comment Pangram réduit-il les faux positifs dans la rédaction en anglais langue seconde ?

Chez Pangram, nous prenons très au sérieux nos performances en matière d'anglais non natif. C'est pourquoi nous avons utilisé plusieurs stratégies pour réduire les faux positifs dans notre modèle de détection de texte généré par IA.

Données

Les modèles d'apprentissage automatique ne fonctionnent pas bien en dehors de leur distribution d'entraînement. Nous veillons donc à inclure des textes non anglophones dans notre ensemble de données.

Cependant, nous ne nous arrêtons pas là. Alors que d'autres détecteurs d'écriture IA se concentrent spécifiquement sur les écrits d'étudiants et les essais universitaires, nous entraînons notre modèle sur un large éventail d'écrits. Les autres détecteurs d'écriture IA uniquement entraînés sur des essais souffrent souvent d'une sous-représentation de l'anglais plus familier et conversationnel dans l'ensemble de données d'entraînement. En revanche, nous utilisons des textes provenant des réseaux sociaux, des avis et des textes Internet généraux, qui sont souvent informels et plus représentatifs d'une écriture imparfaite similaire à celle utilisée par les locuteurs non natifs ou les apprenants de la langue anglaise.

Nous veillons également à inclure des sources pouvant contenir des textes rédigés dans un anglais non natif, même si ces sources ne sont pas spécifiquement des ensembles de données ESL. Par exemple, les textes en anglais publiés sur des sites web avec des domaines étrangers constituent une excellente source de textes rédigés dans un anglais non natif.

Capacités multilingues

Contrairement à d'autres détecteurs d'IA, nous ne limitons pas notre domaine à l'anglais uniquement. En fait, nous n'imposons aucune restriction linguistique à notre modèle : nous utilisons toutes les langues présentes sur Internet pour entraîner notre modèle afin qu'il fonctionne correctement avec toutes les langues courantes.

Nous avons déjà évoqué nos excellentes performances en matière de multilinguisme, et nous pensons que les techniques que nous avons utilisées pour que Pangram fonctionne très bien dans d'autres langues s'appliquent également très bien à l'anglais langue seconde (ESL).

Bien que nous ne puissions pas déterminer avec certitude quels mécanismes sont responsables de la bonne généralisation et du bon transfert, nous soupçonnons que l'anglais langue seconde peut presque être considéré comme une langue adjacente à l'anglais. En optimisant le modèle pour qu'il fonctionne bien dans toutes les langues, celui-ci ne peut pas s'adapter de manière excessive à des styles, des constructions grammaticales ou des choix de mots spécifiques à une langue particulière, propres à la manière dont les idées sont généralement exprimées dans cette langue. En examinant des textes humains dans toutes les langues, nous enseignons au modèle comment tous les humains écrivent, et pas seulement les locuteurs natifs de l'anglais. Cela rend le modèle moins susceptible de se concentrer de manière incorrecte sur les expressions idiomatiques utilisées par les locuteurs natifs.

Apprentissage actif

Notre approche d'apprentissage actif explique pourquoi Pangram est beaucoup plus précis et signale beaucoup moins de textes humains comme étant générés par l'IA que ses concurrents.

En alternant de manière itérative entre l'entraînement et l'extraction de données négatives, nous trouvons les exemples humains qui ressemblent le plus au texte généré par l'IA pour l'entraînement. Non seulement cette approche fait ressortir les exemples humains les plus similaires au texte généré par l'IA, ce qui aide le modèle à comprendre les différences subtiles entre le texte ESL et le texte généré par l'IA, mais elle nous aide également à trouver des exemples similaires à l'ESL qui vont bien se transférer et aider le modèle à apprendre de meilleurs modèles dans l'ensemble.

Stratégies d'incitation

Lorsque nous créons des exemples d'IA à partir desquels le modèle peut apprendre, nous essayons d'utiliser une grande variété de consignes afin que le modèle puisse s'adapter à différents styles d'écriture. Par exemple, nous ajoutons souvent des modificateurs à la fin de nos consignes, tels que « Rédigez cet essai dans le style d'un lycéen » ou « Rédigez cet article dans le style d'une personne dont l'anglais n'est pas la langue maternelle ».

En créant autant de styles d'écriture différents, le modèle n'apprend pas seulement la manière par défaut dont les modèles linguistiques IA écrivent : il apprend les schémas fondamentaux sous-jacents du texte IA.

D'un point de vue statistique, nous concevons notre pipeline de miroir synthétique de manière à ce que notre modèle soit invariant par rapport à des caractéristiques non pertinentes telles que le sujet, le niveau d'écriture ou le ton. En incitant le modèle à correspondre aux caractéristiques du texte humain, nous intégrons l'invariance en disposant d'un nombre égal d'exemples humains et d'exemples IA qui présentent chaque caractéristique.

Évaluation rigoureuse et assurance qualité

Enfin, nous mettons en œuvre un processus d'évaluation et d'assurance qualité extrêmement complet et rigoureux avant de valider chaque nouvelle mise à jour du modèle.

Dans notre évaluation, nous nous concentrons à la fois sur la qualité et la quantité. Par exemple, l'ensemble de données Liang TOEFL ne comporte que 91 exemples, ce qui signifie que nous ne pourrions obtenir qu'une estimation très approximative de notre taux de faux positifs sur ESL si nous n'utilisions que cet ensemble de données. Si nous n'avions qu'un seul exemple erroné, nous signalerions un taux de faux positifs de 1,1 %, ce qui ne nous permettrait pas de faire la différence entre les modèles qui ont en réalité un FPR inférieur à 1 %.

Comme nous nous efforçons d'obtenir un taux de faux positifs bien inférieur à 1 % (notre objectif se situe entre 1 sur 10 000 et 1 sur 100 000), nous devons mesurer des millions d'exemples pour pouvoir confirmer une précision à ce niveau.

Une évaluation à grande échelle nous aide également à mieux comprendre les modes de défaillance de notre modèle et à les corriger au fil du temps en recherchant de meilleures données et en élaborant de meilleures stratégies algorithmiques spécifiquement adaptées à nos cas de défaillance.

Peut-on se fier aux détecteurs d'IA sur ESL ?

Grâce à nos mesures, à nos résultats d'évaluation détaillés et à nos stratégies d'atténuation explicables, nous pensons que Pangram est suffisamment précis pour les locuteurs non natifs de l'anglais pour être déployé dans le milieu éducatif.

Cependant, disposer d'un détecteur d'IA suffisamment impartial ne suffit pas à prévenir toutes les formes de partialité dans le processus d'intégrité académique. Les enseignants doivent être conscients que la partialité peut se manifester de manière inconsciente. Par exemple, si un enseignant est plus enclin à utiliser un détecteur d'IA sur les travaux rendus par des locuteurs non natifs de l'anglais en raison d'un soupçon inconscient que les étudiants ESL sont moins honnêtes, il s'agit alors d'une forme de partialité.

De plus, les enseignants doivent être conscients que les locuteurs non natifs de l'anglais souffrent de désavantages inhérents dans le milieu universitaire par rapport à leurs homologues anglophones. Les étudiants ESL sont plus susceptibles d'utiliser des outils externes tels que ChatGPT pour améliorer leur écriture, ce qui, lorsqu'ils sont utilisés en quantité suffisante, déclenche les logiciels de détection de l'IA. C'est pourquoi nous recommandons l'échelle d'évaluation de l'IA Perkins afin de faciliter une communication claire avec les étudiants sur le type d'aide IA autorisé et celui qui ne l'est pas.

Enfin, nous savons que les élèves trichent lorsqu'ils sont soumis à du stress et à de la pression, lorsqu'ils ressentent un manque d'efficacité personnelle, en particulier lorsqu'ils se comparent à leurs camarades, et lorsqu'ils ont l'impression que l'utilisation d'un outil de triche est le seul moyen pour eux de réussir. Nous encourageons les enseignants à aborder ces préoccupations de manière proactive, en apportant leur soutien à ces élèves, en communiquant clairement le type d'aide disponible et autorisé, et éventuellement en repensant les stratégies d'évaluation qui n'exigent pas un anglais parfait de la part des élèves qui arrivent en classe déjà défavorisés.

Le pangramme doit être utilisé comme un outil visant à soutenir l'intégrité académique afin que les enseignants puissent comprendre la meilleure façon de procéder pour soutenir l'apprentissage de leurs élèves.

Pour en savoir plus sur nos recherches et les moyens que nous mettons en œuvre pour réduire les biais dans notre logiciel de détection basé sur l'IA, veuillez nous contacter à l'adresse info@pangram.com.

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.