Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
L'un des aspects les plus importants de notre travail chez Pangram consiste à réduire au maximum notre taux de faux positifs. Cela signifie réduire autant que possible le risque que des textes rédigés par des humains soient signalés comme générés par une IA. Aujourd'hui, nous allons vous expliquer les taux de faux positifs de Pangram pour différents types d'écrits, comment nous mesurons et évaluons nos modèles afin de garantir que le taux de faux positifs soit le plus bas possible, et enfin, certaines des techniques que nous utilisons pour créer un logiciel de détection d'IA avec le taux de faux positifs le plus bas du secteur.
Dans le contexte de la détection de l'IA, un faux positif se produit lorsqu'un détecteur prédit à tort qu'un échantillon généré par un humain a été généré par une IA. À l'inverse, un faux négatif se produit lorsqu'un échantillon généré par une IA est prédit à tort comme ayant été généré par un humain.
Faux positifs et faux négatifs dans la détection par IA
Le diagramme ci-dessus illustre les deux types d'erreurs. Si le rouge représente la classe négative et le vert la classe positive, un X rouge prédit comme vert serait un faux positif, et un O vert prédit comme rouge serait un faux négatif.
En statistique, on utilise les termes « erreur de type I » et « erreur de type II » : ces termes ont exactement la même signification. Une erreur de type I est un faux positif, et une erreur de type II est un faux négatif. Les statisticiens, et en particulier ceux qui travaillent dans le domaine des sciences médicales, utilisent également les termes « sensibilité » et « spécificité » pour distinguer ces deux taux d'erreur. Les scientifiques spécialisés dans l'apprentissage automatique utilisent les termes « précision » et « rappel ». Bien qu'il existe de légères différences techniques entre ces termes, à des fins pédagogiques, nous nous en tiendrons dans cet article aux termes « faux positifs » et « faux négatifs », car je pense que ce sont les termes les plus explicites pour désigner ces deux types d'erreurs.
Dans la détection par IA, un faux positif est bien pire qu'un faux négatif. Accuser à plusieurs reprises des étudiants qui rédigent eux-mêmes leurs devoirs sans aide de l'IA de plagiat par IA nuit considérablement à la confiance entre l'étudiant et l'enseignant et peut causer beaucoup d'anxiété et de stress à l'étudiant. D'un autre côté, un faux négatif peut signifier qu'un tricheur peut passer entre les mailles du filet de temps à autre, ce qui n'est pas un résultat si grave.
Il convient de noter que dans d'autres problèmes de détection, les faux négatifs peuvent causer beaucoup plus de tort que les faux positifs : par exemple, dans le cadre d'un dépistage du cancer, il vaut mieux que le test indique à tort que le patient est atteint d'un cancer plutôt que de passer complètement à côté du cancer réel du patient. Si le test indique à tort que le patient est atteint d'un cancer, cela peut certes être gênant pour le patient de devoir se rendre à nouveau à l'hôpital pour des examens de suivi et des tests supplémentaires, mais c'est bien mieux que de passer à côté d'un diagnostic de cancer, qui constitue une menace pour la vie du patient.
Pour en revenir à la détection de l'IA, un faux positif cause plus de tort qu'un faux négatif, mais les deux sont importants : passer systématiquement à côté d'un texte généré par l'IA et le prédire à tort comme étant humain nuit également à la valeur de l'outil. Ainsi, chez Pangram, notre approche générale consiste à minimiser autant que possible les faux négatifs et les faux positifs, mais en accordant une plus grande priorité aux faux positifs.
La réponse est : cela dépend !
Dans l'ensemble, nous estimons notre taux de faux positifs à environ 1 sur 10 000 : parfois un peu plus, parfois un peu moins, selon le type d'écriture et d'autres variables.
Nous mesurons le taux de faux positifs de Pangram sur une grande variété de textes : nous appelons cela des domaines. Bien que non exhaustifs, voici nos taux de faux positifs les plus récents, mesurés en interne pour chaque domaine :
| Domaine | Taux de faux positifs |
|---|---|
| Essais universitaires | 0.004% |
| Avis sur les produits (anglais) | 0.004% |
| Avis sur les produits (espagnol) | 0.008% |
| Avis sur les produits (japonais) | 0.015% |
| Résumés scientifiques | 0.001% |
| Documentation du code | 0.0% |
| Transcriptions du Congrès | 0.0% |
| Recettes | 0.23% |
| Documents médicaux | 0.000% |
| Avis sur les entreprises américaines | 0.0004% |
| Scénarios de films hollywoodiens | 0.0% |
| Wikipédia (anglais) | 0.016% |
| Wikipédia (espagnol) | 0.07% |
| Wikipédia (japonais) | 0.02% |
| Wikipédia (en arabe) | 0.08% |
| Articles d'actualité | 0.001% |
| Livres | 0.003% |
| Poèmes | 0.05% |
| Discours politiques | 0.0% |
| Questions-réponses sur les réseaux sociaux | 0.01% |
| Écriture créative, nouvelles | 0.009% |
| Articles pratiques | 0.07% |
En général, Pangram fonctionne mieux lorsque les conditions suivantes sont remplies :
Nous pensons que ces facteurs expliquent pourquoi Pangram obtient les meilleurs résultats dans les domaines de la rédaction d'essais, de la création littéraire et des critiques. Si les articles d'actualité, les publications scientifiques et les entrées Wikipédia sont plus formels et techniques, les données disponibles dans ces domaines sont abondantes, ce qui a permis à Pangram de devenir très performant dans la reconnaissance des schémas d'écriture, même les plus subtils. Enfin, les domaines tels que les recettes de cuisine et la poésie sont les plus faibles, car les textes sont généralement courts, ne sont pas rédigés en phrases complètes (ce qui réduit les chances pour le LLM d'injecter son style idiosyncrasique dans le texte) et sont généralement plus rares en ligne que les autres domaines.
Concrètement, qu'est-ce que cela signifie ? Bien que Pangram reste relativement fiable dans tous les domaines, vous pouvez avoir davantage confiance en sa précision lorsque le texte est long, composé de phrases complètes et nécessite davantage de contributions originales de la part de l'auteur. C'est pourquoi nous déconseillons d'utiliser Pangram pour des listes à puces et des plans succincts, des mathématiques, des réponses très courtes (par exemple, des phrases uniques) et des textes extrêmement formels tels que de longues listes de données, des feuilles de calcul, des modèles de rédaction et des manuels d'instructions.
Nous ne pouvons pas réaliser la même analyse comparative approfondie sur nos concurrents, tout simplement parce que le coût d'une telle opération serait extrêmement prohibitif. Cependant, nous pouvons examiner ce que nos concurrents déclarent être leur taux de faux positifs.
Taux de faux positifs déclaré par Turnitin sur son site web
Le dernier livre blanc de Turnitin fait état d'un taux de faux positifs de 0,51 % sur les travaux universitaires, soit environ 1 sur 200, au niveau des documents. Cela signifie qu'un travail sur 200 soumis par les étudiants sera faussement signalé comme ayant été rédigé par une IA.
Notre taux de faux positifs, mesuré sur un ensemble de données similaire composé d'essais universitaires, est de 0,004 %, soit 1 sur 25 000.
Il s'agit là d'une différence significative. Dans une grande université de recherche, 100 000 articles peuvent être soumis chaque année. Cela représente une différence de 500 faux positifs pour Turnitin et seulement 4 pour Pangram.
Taux de faux positifs signalé par GPTZero sur son site web
GPTZero revendique un taux de faux positifs de 1 %, soit deux fois plus élevé que Turnitin et 250 fois plus élevé que Pangram.
Nous avons comparé en interne GPTZero et Pangram sur un ensemble réduit de documents issus de notre ensemble VIP général, afin d'obtenir une comparaison équitable. Nous avons constaté que le taux de faux positifs était pire que celui rapporté, à 2,01 %.
Taux de faux positifs signalé par Copyleaks sur son site web
Copyleaks revendique un taux de faux positifs de 0,2 %, soit 1 sur 500, ce qui serait 50 fois pire que Pangram si cela était vrai.
De plus, un chiffre isolé comme celui-ci ne reflète pas toute la réalité. Nous ne savons pas d'où proviennent les données, ni quels biais potentiels ont pu influencer l'évaluation. C'est pourquoi nous effectuons des analyses comparatives approfondies et publions cet article détaillant notre processus d'évaluation de notre modèle.
En examinant l'étude RAID publiée l'année dernière par Liam Dugan et ses coauteurs, étude n° 2 dans l'article de synthèse que nous avons publié, nous aimerions attirer votre attention sur le graphique suivant.
Étude RAID sur les taux de faux positifs entre les détecteurs
La plupart des détecteurs fournissent un « seuil », qui correspond au pourcentage de confiance au-dessus duquel le modèle considère que le texte est généré par une IA, et en dessous duquel il considère que le texte est humain. En modifiant le seuil, il est possible de trouver un compromis entre les faux positifs et les faux négatifs.
Dans ce graphique, l'axe des x représente le taux de faux positifs causé par le déplacement du seuil, et l'axe des y représente le rappel : c'est-à-dire la fraction de documents IA pouvant être classés comme IA lorsqu'ils sont évalués à ce seuil.
En résumé, les détecteurs de nos concurrents ne fonctionnent pas lorsqu'ils sont contraints d'avoir un taux de faux positifs inférieur à 1 % ; c'est-à-dire qu'ils ne seraient pas en mesure de détecter l'IA lorsque le seuil est suffisamment bas pour produire un FPR de 1 %.
Pangram suit un processus extrêmement rigoureux de validation et de test avant que tout nouveau modèle ne soit autorisé à être déployé sur notre tableau de bord et notre API.
Au cours de notre processus d'assurance qualité, nous effectuons trois types de tests pour détecter les faux positifs, qui établissent chacun un équilibre entre l'évaluation quantitative et qualitative. Nos évaluations comprennent :
Ensembles de données de validation à grande échelle. Environ 10 000 à 10 000 000 d'exemples par ensemble. Il s'agit de bases de données Internet à grande échelle et en libre accès datant d'avant ChatGPT (2022), à partir desquelles nous avons sélectionné un ensemble de données de validation qui n'a pas été utilisé pour l'entraînement et qui est réservé uniquement à des fins d'évaluation.
Ensembles VIP de taille moyenne. Environ 1 000 exemples par ensemble. Il s'agit d'ensembles de données que des ingénieurs ou des étiqueteurs ont collectés manuellement à partir de sources fiables, inspectés à l'œil nu et validés personnellement comme étant rédigés par des humains. Bien que les experts formés soient doués pour détecter à l'œil nu les contenus générés par l'IA, ils commettent parfois des erreurs. C'est pourquoi nous vérifions régulièrement les données et les nettoyons pour en garantir l'exactitude.
Ensembles de défis. Environ 10 à 100 exemples par ensemble. Il s'agit de faux positifs signalés précédemment, de cas difficiles que nos amis nous ont envoyés et, en général, d'exemples intéressants sur lesquels nous voulons tester nos performances. Nous collectons également des exemples de textes inhabituels, tels que des recettes, des poèmes, des scénarios de films et d'autres formes écrites qui ne sont pas bien représentées dans les ensembles d'entraînement des grands modèles linguistiques, et nous considérons également ces exemples comme des ensembles de défis, ainsi que comme une référence globale pour évaluer les performances de notre modèle lorsqu'il est « hors distribution ».
En plus de ces trois types d'assurance qualité, nous avons également des tests unitaires. Ces tests unitaires consistent, en termes simples, à tester notre modèle pour détecter ce que nous appelons des « échecs embarrassants ». Notre suite de tests unitaires actuelle nous oblige à prédire le comportement humain pour des documents tels que la Déclaration d'indépendance, des citations célèbres de la littérature, ainsi que le contenu de notre propre site web et de nos articles de blog. Si l'un de ces tests unitaires échoue, nous bloquons le déploiement d'un nouveau modèle et retournons à la case départ. L'une de nos philosophies directrices en matière d'évaluation consiste à être extrêmement vigilant dans le suivi et la surveillance de ces « échecs embarrassants » afin qu'ils ne se reproduisent jamais lors de la sortie d'un nouveau modèle.
Diagramme illustrant les trois types d'ensembles d'évaluation utilisés chez Pangram : ensembles de validation à grande échelle (plus de 10 millions d'exemples), ensembles VIP à moyenne échelle (plus de 1 000 exemples) et ensembles de défis (10 à 100 exemples).
Les personnes qui ont un penchant pour les mathématiques et les sciences pourraient se demander : pourquoi avez-vous besoin d'une évaluation qualitative ? N'est-il pas toujours préférable d'avoir plus d'échantillons ?
Ma réponse à cela serait : plus d'échantillons n'est pas toujours mieux. Comme l'a dit un jour un sage prophète, il y a des mensonges, des mensonges éhontés et des statistiques. Mais sérieusement, nous pensons que lorsque vous créez un ensemble de données à grande échelle, vous introduisez toujours une certaine forme de biais. Et lorsque vous disposez d'un ensemble de données si volumineux que vous ne pouvez pas inspecter chaque exemple, vous ne savez pas si votre modèle s'est trop adapté à un biais dans l'ensemble de données, ce qui le rendra performant lors des tests, mais peu efficace dans le monde réel. (Soit dit en passant, nous pensons que c'est la raison pour laquelle il existe de nombreux détecteurs d'IA en ligne qui annoncent une « précision de 99 % », mais qui sont loin d'atteindre ce niveau lorsque vous les testez réellement).
Un exemple amusant illustrant l'importance de ces multiples variantes de suites de tests s'est produit au début de Pangram, lorsque nous avons introduit Wikipédia dans l'ensemble d'apprentissage. L'une de nos premières tentatives infructueuses s'est avérée excellente sur l'ensemble de validation, mais très médiocre sur l'ensemble VIP, qui était constitué d'articles Wikipédia collectés à la main. Nous avons finalement découvert que dans l'ensemble de données Huggingface que nous utilisions, du côté humain, la prononciation des noms exprimée en alphabet phonétique international était reformatée d'une manière vraiment étrange à laquelle le modèle s'adaptait de manière excessive : il se contentait d'examiner le formatage du nom, puis concluait, sur la base de ce formatage, si le document était issu de l'IA ou d'un humain. Excellent sur l'ensemble de test, mais terrible dans le monde réel où le modèle ne disposait pas de cet indice particulier ! C'est pourquoi il est important de disposer d'un ensemble de test qui reflète fidèlement le type de texte que Pangram va rencontrer dans le monde réel.
Avant d'expédier un modèle à nos clients chez Pangram, nous suivons une procédure de validation rigoureuse qui comprend une évaluation quantitative et qualitative, au cours de laquelle nous soumettons le modèle à des tests de résistance et examinons minutieusement ses performances par rapport au modèle actuel.
Évaluation quantitative : signifie que les mesures du taux de faux positifs sur tous les ensembles de test, ensembles VIP et cas difficiles ne doivent pas faire l'objet d'une régression.
Évaluation qualitative : dans la plupart des cas, certains exemples seront améliorés, tandis que d'autres subiront une régression. Dans la mesure du possible, nous examinons attentivement les exemples spécifiques qui subissent une régression et nous nous assurons que les échecs sont explicables. Cela est souvent nuancé et spécifique aux hypothèses particulières que nous testons, mais en général, nous voulons nous assurer que les cas d'échec ne présentent pas un schéma particulier qui pourrait se généraliser à un échec dans le monde réel après le déploiement.
Vérification de l'ambiance / red teaming : enfin, une fois les évaluations quantitatives et qualitatives terminées, nous vérifions simplement l'ambiance du modèle en l'envoyant à l'équipe et en lui demandant de le tester pendant un certain temps. Pour certaines mises à jour, nous pouvons également demander à des testeurs internes ou à des clients bêta de tester le modèle avant de le diffuser largement au public (nous les encourageons généralement à essayer de trouver des cas qui ne fonctionnent pas avec le modèle !)
Test A/B rétroactif : nous effectuons une inférence hors ligne sur nos anciennes prédictions et examinons les différences entre l'ancien modèle et le nouveau modèle. Nous ne disposons pas toujours de la vérité terrain pour les données que nous avons précédemment inférées, mais là encore, nous recherchons des modèles cohérents susceptibles de présenter des cas d'échec dans le monde réel.
En résumé, bien que nous soyons extrêmement rigoureux et scientifiques dans la mesure des performances de notre modèle à l'aide d'indicateurs et de statistiques, nous ne nous fions pas uniquement aux chiffres pour nous donner une vue d'ensemble. Nous faisons également confiance à nos yeux, à notre intuition et à notre capacité à reconnaître des schémas pour examiner le modèle et trouver des erreurs que nos indicateurs auraient pu manquer. Nous comptons également sur notre équipe de testeurs, de red teamers et de clients bêta pour trouver les failles que l'équipe aurait pu manquer.
Le maintien d'un faible taux de faux positifs est au cœur de notre mission de recherche. Voici quelques-unes des techniques que nous avons utilisées jusqu'à présent afin d'obtenir le meilleur taux d'erreur possible.
Si les détecteurs d'IA concurrents peuvent être « conçus pour le milieu universitaire, les écoles, les salles de classe et les enseignants », cela signifie en réalité que leur ensemble d'apprentissage ne contient que des écrits universitaires.
D'autre part, nous avons développé Pangram afin de tirer parti de la leçon amère suivante : les algorithmes d'apprentissage généraux, entraînés sur de grands volumes de données provenant d'une grande variété de sources, sont plus efficaces que les modèles spécifiques entraînés sur des données propres à un domaine particulier.
Cela signifie que nous entraînons notre détecteur d'IA sur une grande variété d'écrits : créatifs, techniques, scientifiques, encyclopédiques, critiques, sites web, articles de blog... la liste est longue. La raison en est simple : à l'instar d'une formation libérale bien équilibrée, l'exposition à de nombreuses disciplines et styles d'écriture aide le modèle à mieux comprendre et généraliser lorsqu'il rencontre de nouveaux cas. Suivant la tendance générale en matière de formation à l'IA, ChatGPT et d'autres grands modèles linguistiques ne sont pas formés sur des données spécifiques pour des cas d'utilisation particuliers, mais sur des données textuelles générales à grande échelle afin qu'ils puissent acquérir une intelligence générale : nous croyons en la même stratégie pour former des détecteurs d'IA qui soient robustes face à tous les différents types de textes généraux qu'un LLM peut produire.
Nous avons beaucoup écrit sur notre algorithme d'apprentissage actif, qui tire parti d'une technique appelée « hard negative mining » (extraction des négatifs difficiles), et nous pensons que c'est la principale raison pour laquelle nous sommes en mesure de réduire notre taux de faux positifs à près de zéro.
En substance, cela fonctionne parce que la plupart des exemples rencontrés dans la réalité sont des « exemples faciles » : une fois que le modèle a appris les schémas de base permettant de distinguer ce qui relève de l'humain et ce qui relève de l'IA, il est très facile de déterminer lequel est lequel pour la grande majorité des données. Cependant, cela ne permet d'atteindre qu'une précision d'environ 99 %. Afin d'atteindre les derniers pourcents de précision, nous devons trouver les cas les plus difficiles pour entraîner le modèle : nous pouvons considérer ces cas comme ceux où un humain décide simplement d'écrire d'une manière très similaire à un modèle linguistique d'IA, mais où, en réalité, il écrit simplement ainsi par coïncidence. Pour trouver ces cas difficiles, nous effectuons une recherche à grande échelle sur des ensembles de données à l'échelle d'Internet, tels que ceux utilisés pour entraîner les LLM, puis nous effectuons un miroir synthétique pour générer des exemples d'IA qui sonnent de manière similaire. Vous trouverez plus de détails sur notre page « Comment ça marche ».
Nous formulons notre objectif d'optimisation de manière à ce que le modèle privilégie également les faux positifs par rapport aux faux négatifs pendant la procédure d'apprentissage elle-même. Lorsque le modèle se trompe sur un document humain, il est « pénalisé » par un facteur beaucoup plus important que s'il se trompe sur un document généré par l'IA. Cela oblige le modèle à être prudent et à ne prédire qu'un document est généré par l'IA s'il en est absolument certain.
Cela concerne la sélection du seuil telle que décrite dans RAID. Nous sélectionnons notre seuil en fonction de l'évaluation de millions de documents dans nos ensembles d'évaluation afin de trouver le juste équilibre entre les taux de faux positifs et de faux négatifs. Avec notre sélection de seuil, nous essayons de trouver un équilibre entre le maintien d'un taux de faux négatifs raisonnable et le maintien d'un taux de faux positifs acceptable.
Nous aimons travailler avec des chercheurs pour améliorer la précision globale de notre logiciel, et nous sommes passionnés par les tests de performance ouverts et la transparence dans la détection de l'IA. Pour toute demande de collaboration avec nous, ou pour toute question supplémentaire sur la précision de Pangram, veuillez contacter info@pangram.com.
