Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
REMARQUE : Nous avons changé notre nom pour Pangram Labs ! Consultez notre article de blog pour plus de détails.
Chez Checkfor.ai, nous nous efforçons d'être le meilleur détecteur de texte IA de sa catégorie afin de promouvoir notre mission qui consiste à protéger Internet contre la pollution générée par l'IA de mauvaise qualité. L'un des domaines les plus importants à défendre est celui des plateformes d'avis d'utilisateurs.
Les faux avis en ligne nuisent en fin de compte tant aux entreprises qu'aux consommateurs, et ChatGPT n'a fait que faciliter la fraude à grande échelle en matière d'avis.
Avis généré par ChatGPT sur Yelp
Maintenir la confiance des utilisateurs dans les avis en ligne est un élément important de notre mission chez Checkfor.ai, qui consiste à protéger l'authenticité du contenu généré par les utilisateurs en ligne.
Je m'appelle Bradley Emi et je suis directeur technique chez Checkfor.ai. J'ai travaillé comme chercheur en intelligence artificielle à Stanford, j'ai livré des modèles de production en tant que scientifique en apprentissage automatique au sein de l'équipe Tesla Autopilot, et j'ai dirigé une équipe de recherche qui a mis au point une plateforme permettant de concevoir des médicaments à l'aide de grands réseaux neuronaux chez Absci. Dans le domaine des voitures autonomes et de la découverte de médicaments, une précision de 99 % n'est tout simplement pas suffisante. Une précision de 99 % pourrait signifier qu'un piéton sur 100 est renversé par un véhicule autonome, ou qu'un patient sur 100 subit des effets secondaires potentiellement mortels dus à un médicament mal conçu.
Bien que la détection de textes générés par l'IA ne soit pas nécessairement une question de vie ou de mort, chez Checkfor.ai, nous voulons concevoir des modèles et des systèmes logiciels qui répondent aux mêmes critères de qualité. Notre détecteur doit résister aux attaques adversaires telles que la paraphrase, l'ingénierie avancée des invites et les outils de contournement de la détection tels que undetectable.ai. Nous prenons très au sérieux la résolution de ce problème (par exemple, ne pas se contenter d'atteindre 99 %) et, par conséquent, l'une des principales priorités de notre équipe d'ingénieurs est de développer une plateforme d'évaluation extrêmement robuste.
Une entreprise de cybersécurité Software 1.0 ne commercialiserait jamais un produit sans avoir effectué de tests unitaires. En tant qu'entreprise Software 2.0, nous avons besoin de l'équivalent des tests unitaires, sauf qu'ils doivent tester des modèles volumineux comportant des millions, voire des milliards de paramètres, qui peuvent se comporter de manière stochastique, et doivent fonctionner correctement tout en couvrant une large distribution de cas extrêmes. Nous ne pouvons pas nous contenter d'atteindre une « précision de 99 % des tests » et en rester là : nous avons besoin d'évaluations qui testent spécifiquement les types d'exemples que nous rencontrerons dans le monde réel.
Un bon ensemble de tests répond à des questions spécifiques et minimise le nombre de variables confusionnelles.
Voici quelques exemples de questions ciblées et de séries de tests correspondantes :
Il existe plusieurs raisons pour lesquelles vous ne pouvez pas simplement combiner tous les éléments de votre ensemble de test et communiquer un chiffre.
C'est pourquoi les études comparatives de ce type passent complètement à côté de l'essentiel. Elles manquent de précision et ne testent pas les comportements spécifiques que nous souhaitons voir le modèle adopter. Les séries de tests biaisées mettent en avant le modèle lorsqu'il donne le meilleur de lui-même, et non lorsqu'il est confronté à des exemples concrets.
Un exemple d'application concrète de la détection de texte généré par l'IA est la détection des avis générés par l'IA sur Yelp. Yelp s'engage à modérer strictement sa plateforme d'avis, et si vous consultez son rapport sur la confiance et la sécurité pour 2022, vous constaterez clairement que Yelp accorde une grande importance à la lutte contre les avis frauduleux, rémunérés, incités ou autrement malhonnêtes.
Heureusement, Yelp a également publié un excellent ensemble de données open source. Nous avons échantillonné au hasard 1 000 avis provenant de cet ensemble de données, et avons généré 1 000 avis synthétiques à partir de ChatGPT, le LLM le plus couramment utilisé.
Il est important de noter que les avis ChatGPT concernent de véritables entreprises Yelp issues de leur ensemble de données Kaggle : ainsi, le modèle ne peut pas tricher en s'adaptant de manière excessive à des détails tels que la différence dans la répartition des entreprises. Lors de l'évaluation, nous testons si le modèle a réellement appris à utiliser les caractéristiques correctes du texte afin de différencier le vrai du faux.
Nous utilisons cet ensemble de données pour déterminer quels modèles de détection IA sont réellement capables de différencier les avis générés par ChatGPT des avis authentiques !
Notre indicateur le plus simple est la précision : combien d'exemples chaque modèle a-t-il classés correctement ?
Si une différence de 99,85 % contre 96 % peut sembler insignifiante à première vue, le taux d'erreur permet de mieux replacer ces chiffres dans leur contexte.
Checkfor.ai ne devrait échouer qu'une fois sur 666 requêtes, tandis qu'Originality.AI devrait échouer une fois sur 26 requêtes et GPTZero une fois sur 11 requêtes. Cela signifie que notre taux d'erreur est plus de 25 fois meilleur que celui d'Originality.AI et 60 fois meilleur que celui de GPTZero.
Afin d'examiner les faux positifs et les faux négatifs (dans le jargon de l'apprentissage automatique, nous considérerions les statistiques très similaires de précision et de rappel), nous pouvons examiner la matrice de confusion : quels sont les taux relatifs de vrais positifs, de faux positifs, de vrais négatifs et de faux négatifs ?

Over all 2,000 examples, Checkfor.ai produces 0 false positives and 3 false negatives, exhibiting high precision and high recall. While admirably, GPTZero does not often predict false positives, with only 2 false positives, it comes at the expense of predicting 183 false negatives– an incredibly high false negative rate! We’d call this a model that exhibits high precision but low recall. Finally, Originality.AI predicts 60 false positives and 8 false negatives– and it refuses to predict a likelihood on short reviews (<50 words) — which are the hardest cases and most likely to be false positives. This high false positive rate means that this model is low precision, high recall.
Dans le domaine de la détection de texte généré par l'IA, un faible taux de faux positifs est certes plus important (nous ne voulons pas accuser à tort de véritables humains d'avoir plagié ChatGPT), mais un faible taux de faux négatifs est également nécessaire : nous ne pouvons pas nous permettre de laisser passer plus de 10 à 20 % du contenu généré par l'IA.
En fin de compte, nous aimerions que notre modèle exprime un haut niveau de confiance lorsqu'il est clair que le texte est humain ou écrit par ChatGPT.
En suivant une stratégie de visualisation similaire à celle utilisée dans l'excellent article universitaire DetectGPT de Mitchell et al., nous représentons graphiquement les histogrammes des prédictions des modèles pour les avis générés par l'IA et les avis réels pour les trois modèles. Étant donné que les trois modèles ont une précision supérieure à 90 %, une échelle logarithmique sur l'axe des y est la plus utile pour visualiser les caractéristiques de la confiance de chaque modèle.

Sur ce graphique, l'axe des x représente la probabilité que le modèle prédise que l'avis saisi a été généré par une IA. L'axe des y représente la fréquence à laquelle le modèle prédit cette probabilité particulière pour un texte réel (barres bleues) ou généré par une IA (barres rouges). Nous constatons qu'en examinant ces prédictions « souples », plutôt que de se contenter d'un oui ou d'un non, Checkfor.ai est beaucoup plus efficace pour tracer une limite de décision claire et faire des prédictions plus fiables que GPTZero ou Originality.AI.
GPTZero a tendance à prédire trop d'exemples dans la fourchette de probabilité 0,4-0,6, avec un mode situé autour de 0,5. D'autre part, le problème des faux positifs d'Originality.AI devient encore plus visible lorsqu'on examine les prédictions approximatives. De nombreux avis réels sont très proches d'être prédits comme générés par l'IA, même s'ils ne dépassent pas le seuil de 0,5. Il est donc difficile pour un utilisateur de croire que le modèle peut prédire de manière fiable les textes générés par l'IA, car de petites perturbations dans l'avis peuvent permettre à un adversaire de contourner le détecteur en modifiant l'avis de manière itérative jusqu'à ce qu'il se trouve sous le seuil de détection.
Notre modèle, en revanche, est généralement très décisif. Nous sommes généralement en mesure de prendre des décisions en toute confiance. Pour les lecteurs ayant des connaissances approfondies en apprentissage profond ou en théorie de l'information, nous avons la plus faible entropie croisée/divergence KL entre la distribution réelle et la distribution prédite.
Il est clairement utile de prédire avec un haut degré de confiance que le texte réel est réel (voir cette illustration humoristique tirée de Twitter). Bien que cet éducateur ait clairement mal interprété la probabilité de l'IA comme une quantité de texte écrite par l'IA, lorsque les détecteurs ne sont pas sûrs que le texte réel soit vraiment réel, cela laisse place à des interprétations erronées.
https://twitter.com/rustykitty_/status/1709316764868153537
Sur les 3 erreurs prédites par Checkfor.ai, deux d'entre elles sont malheureusement assez fiables. Notre détecteur n'est pas parfait, et nous travaillons activement à calibrer le modèle afin d'éviter ce type d'erreurs de prédiction fiables.
Nous mettons à disposition en open source les ensembles de données utilisés pour cette évaluation des avis Yelp réels et faux, afin que les futurs modèles puissent utiliser cette référence importante pour tester la précision de leurs détecteurs.
Nos principales conclusions sont les suivantes :
Checkfor.ai affiche à la fois un faible taux de faux positifs et un faible taux de faux négatifs. Checkfor.ai est capable de faire la différence entre les avis réels et ceux générés par l'IA non seulement avec une grande précision, mais aussi avec un haut degré de confiance. Nous publierons d'autres articles de ce type à l'avenir et partagerons publiquement nos évaluations honnêtes de notre modèle à mesure que nous en apprendrons davantage. Restez à l'écoute et faites-nous part de vos commentaires !
