Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Pangram est le seul détecteur d'IA qui surpasse les experts humains dans l'identification de contenu généré par l'IA.

Bradley Emi
29 janvier 2025

Nous sommes ravis de découvrir les nouvelles recherches de Jenna Russell, Marzena Karpinksa et Mohit Iyyer, collaborateurs de l'université du Maryland et de Microsoft, qui montrent que Pangram est le meilleur système de détection d'IA et le seul système capable de surpasser les experts humains formés dans la détection de contenus générés par l'IA. Lisez l'article complet ici.

Tweet de Jenna Russell

En plus d'étudier l'efficacité des détecteurs IA automatisés, les chercheurs se penchent également sur la manière dont les experts humains formés détectent les signaux qui les aident à déterminer les signes révélateurs d'un contenu généré par l'IA. Nous pensons que cette recherche constitue un énorme pas en avant en matière d'explicabilité et d'interprétabilité dans la détection de l'IA et nous sommes impatients d'explorer davantage cette piste de recherche.

Dans cet article, nous expliquerons les points forts de cette recherche et ce qu'elle signifie pour l'avenir de la détection du LLM.

Former des humains à devenir des détecteurs d'IA

Nous avons déjà écrit des articles sur la manière de détecter les textes générés par l'IA et le test de référence humain, ainsi que sur la manière dont nous les utilisons pour acquérir une intuition précieuse sur les textes générés par l'IA, qui nous aide à développer de meilleurs modèles.

Normalement, lorsque nous commençons à nous entraîner à repérer les critiques, les essais, les articles de blog ou les actualités générés par l'IA, nous ne sommes pas très doués au début. Il faut un certain temps avant que nous commencions à détecter les signes révélateurs indiquant qu'un texte a été généré par ChatGPT ou un autre modèle linguistique. Par exemple, lorsque nous avons commencé à étudier les critiques, nous avons appris au fil du temps, en examinant de nombreuses données, que ChatGPT aime commencer une critique par la phrase « J'ai récemment eu le plaisir de », ou lorsque nous avons commencé à lire des histoires de science-fiction générées par l'IA, celles-ci commencent souvent par la phrase « En l'an ». Cependant, avec le temps, nous commençons à intérioriser ces schémas et pouvons commencer à les reconnaître.

Les chercheurs se sont également demandé si des experts pouvaient être formés pour détecter les articles générés par l'IA de la même manière. Ils ont formé cinq annotateurs sur Upwork à la détection de contenus générés par l'IA et ont comparé leur capacité à détecter l'IA à l'œil nu à celle de non-experts.

Alors que l'on pouvait s'attendre à une différence entre ces deux groupes dans leur capacité à repérer les textes rédigés par l'IA, les chercheurs ont constaté un écart considérable. Les non-experts obtiennent des résultats similaires à ceux obtenus par hasard dans la détection des textes générés par l'IA, tandis que les experts font preuve d'une grande précision (taux de vrais positifs supérieur à 90 % en moyenne).

La section qui nous a le plus intéressés était celle intitulée « Que voient les annotateurs experts que les non-experts ne voient pas ? ». Les chercheurs ont demandé aux participants d'expliquer pourquoi ils pensaient qu'un texte était généré par l'IA ou non, puis ont analysé leurs commentaires.

Voici quelques analyses tirées directement de l'article :

« Les non-spécialistes ont souvent tendance à se focaliser à tort sur certaines propriétés linguistiques, contrairement aux experts. Prenons l'exemple du choix du vocabulaire : les non-spécialistes considèrent l'utilisation de mots « sophistiqués » ou peu fréquents comme un signe de texte généré par l'IA, tandis que les experts connaissent bien les mots et expressions surutilisés par l'IA (par exemple « testament », « crucial »). Les non-experts pensent également que les auteurs humains sont plus susceptibles de former des phrases grammaticalement correctes et attribuent donc les phrases interminables à l'IA, mais c'est en fait l'inverse qui est vrai : les humains sont plus susceptibles que l'IA d'utiliser des phrases non grammaticales ou interminables. Enfin, les non-spécialistes attribuent tout texte rédigé dans un ton neutre à l'IA, ce qui entraîne de nombreux faux positifs, car les écrits formels humains sont également souvent neutres dans leur ton. » (Russell, Karpinska et Iyyer, 2025).

Dans l'annexe, les auteurs fournissent une liste de « vocabulaire IA » couramment utilisé par ChatGPT, une fonctionnalité que nous avons récemment intégrée au tableau de bord Pangram et qui met en évidence les expressions IA couramment utilisées !

D'après notre expérience, nous avons constaté que, bien que beaucoup de gens pensent que l'IA utilise un vocabulaire sophistiqué et « sophistiqué », nous constatons dans la pratique que l'IA a plutôt tendance à utiliser un vocabulaire plus cliché et métaphorique qui n'a souvent aucun sens. De manière informelle, nous dirions que les LLM ressemblent davantage à des personnes qui essaient de paraître intelligentes, mais qui utilisent en réalité simplement des expressions qui, selon elles, les feront paraître intelligentes.

Robustesse des détecteurs IA par rapport aux modèles de pointe

Une question qui nous est souvent posée chez Pangram est la suivante : comment faites-vous pour rester à la pointe de la technologie ? Lorsque les modèles linguistiques s'améliorent, cela signifie-t-il que Pangram ne fonctionnera plus ? S'agit-il d'un jeu du chat et de la souris dans lequel les laboratoires de pointe comme OpenAI finiront par nous battre ?

Les chercheurs se sont également posé cette question et ont étudié les performances de plusieurs méthodes de détection par IA par rapport au modèle o1-pro d'OpenAI, le modèle le plus avancé publié à ce jour.

Les chercheurs ont découvert que Pangram est précis à 100 % dans la détection des sorties o1-pro, et que nous sommes encore précis à 96,7 % dans la détection des sorties o1-pro « humanisées » (nous y reviendrons dans un instant) ! En comparaison, aucun autre détecteur automatisé n'atteint même 76,7 % sur les sorties o1-pro de base.

Comment Pangram parvient-il à généraliser ainsi ? Après tout, au moment de l'étude, nous ne disposions même pas de données o1-pro dans notre ensemble d'apprentissage.

Comme tous les modèles d'apprentissage profond, nous croyons au pouvoir de l'échelle et du calcul. Tout d'abord, nous partons d'un modèle de base puissant qui est pré-entraîné sur un énorme corpus d'entraînement, tout comme les LLM eux-mêmes. Ensuite, nous avons construit un pipeline de données conçu pour l'échelle. Pangram est capable d'effectuer une reconnaissance subtile des modèles à partir de son corpus d'entraînement de 100 millions de documents humains.
Nous ne nous contentons pas de créer un ensemble de données pour des essais, des actualités ou des critiques : nous essayons de rassembler le plus grand nombre possible de données écrites par des humains, afin que le modèle puisse apprendre à partir de données de la plus haute qualité et de la distribution la plus diversifiée possible, et se familiariser avec tous les types d'écrits humains. Nous constatons que cette approche générale de la détection par l'IA fonctionne beaucoup mieux que l'approche spécialisée consistant à créer un modèle par domaine textuel.

Notre pipeline de données synthétiques et notre algorithme de recherche basé sur l'apprentissage actif viennent compléter notre ensemble de données humaines extrêmement vaste et de grande qualité. Afin d'alimenter notre algorithme en données d'IA, nous utilisons une bibliothèque exhaustive de prompts et tous les principaux modèles d'IA open source et closed source pour générer des données synthétiques. Nous utilisons des invites miroirs synthétiques, que nous avons décrites dans notre rapport technique, et le hard negative mining, qui recherche les exemples présentant le plus d'erreurs dans notre pool de données, crée des exemples d'IA très similaires à ceux des humains et réentraîne le modèle jusqu'à ce qu'il n'y ait plus d'erreurs. Cela nous permet de réduire très efficacement à zéro les taux de faux positifs et de faux négatifs de notre modèle.

En résumé, notre généralisation provient de l'échelle de nos données de pré-entraînement, de la diversité des invites et des modèles linguistiques à grande échelle (LLM) utilisés pour la génération de données synthétiques, ainsi que de l'efficacité des données issues de notre approche d'apprentissage actif et d'exploration des négatifs difficiles.

De plus, nous ne nous contentons pas de rechercher d'excellentes performances hors distribution, nous voulons également nous assurer que le plus grand nombre possible de LLM courants soient en distribution. C'est pourquoi nous avons mis en place un pipeline automatisé robuste pour extraire les données des derniers modèles, afin de pouvoir commencer à former les nouveaux LLM dès leur sortie et rester à jour. Nous constatons qu'il ne s'agit pas d'un compromis entre l'équilibre des performances sur différents modèles : nous constatons que chaque fois que nous introduisons un nouveau LLM dans l'ensemble d'entraînement, la généralisation du modèle s'améliore.

Avec notre système actuel, nous ne constatons pas que les modèles, à mesure qu'ils s'améliorent, deviennent plus difficiles à détecter. Dans de nombreux cas, le modèle de nouvelle génération est en réalité plus facile à détecter. Par exemple, nous avons constaté que nous étions plus précis dans la détection de Claude 3 lors de sa sortie que de Claude 2.

Attaques de paraphrase et d'humanisation

Dans notre récente série d'articles de blog, nous avons décrit ce qu'est un humaniseur d'IA et avons également publié un modèle offrant des performances nettement améliorées en matière de texte humanisé généré par l'IA. Nous sommes ravis de constater qu'un tiers a déjà validé nos affirmations à l'aide d'un ensemble de données d'articles humanisés o1-pro.

Sur le texte humanisé o1-pro, nous atteignons une précision de 96,7 %, tandis que le deuxième meilleur modèle automatisé n'est capable de détecter que 46,7 % du texte humanisé.

Nous sommes également précis à 100 % sur le texte GPT-4o qui a été paraphrasé phrase par phrase.

Conclusion

Nous sommes ravis de constater les excellentes performances de Pangram dans une étude indépendante sur les capacités de détection de l'IA. Nous sommes toujours heureux de soutenir la recherche universitaire et nous offrons un accès libre à tous les universitaires qui souhaitent étudier notre détecteur.

En plus d'évaluer les performances des détecteurs automatisés, nous sommes ravis de voir que des recherches commencent également à s'intéresser à l'explicabilité et à l'interprétabilité de la détection par l'IA : il ne s'agit pas seulement de savoir si un texte a été rédigé par l'IA, mais aussi pourquoi. Nous sommes impatients de vous en dire plus sur la manière dont ces résultats peuvent aider les enseignants et les éducateurs à repérer à l'œil nu les textes générés par l'IA, et sur la manière dont nous prévoyons d'intégrer ces recherches dans des outils de détection automatisés plus explicables.

Pour plus d'informations, veuillez consulter notre site Web pangram.com ou nous contacter à l'adresse info@pangram.com.

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.