Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Comment fonctionne la détection par IA ?

Alex Roitman
9 octobre

Points clés à retenir :

  • Les LLM présentent certains schémas qui permettent aux outils de détection de l'IA d'identifier s'il s'agit d'un contenu généré par un humain ou par une IA.
  • Les anciens détecteurs s'appuyaient sur la burstiness et la perplexité, mais ces méthodes ne sont pas fiables. Les nouveaux détecteurs fonctionnent beaucoup mieux et s'appuient sur des ensembles de données plus importants et l'apprentissage actif.
  • Lorsqu'ils choisissent un détecteur, les utilisateurs doivent déterminer les taux de faux positifs et de faux négatifs qui leur conviennent. Ils doivent également déterminer s'ils ont besoin d'un vérificateur de plagiat ou d'autres fonctionnalités avant de sélectionner un outil.
  • Les personnes qui n'ont pas été formées à la détection de l'IA ne sont pas très douées pour cela. Cependant, celles qui ont été formées ou qui sont régulièrement exposées à des textes générés par l'IA sont capables de mieux identifier le contenu généré par l'IA que celles qui ne l'ont pas été. Cette détection, combinée à un logiciel, peut très bien fonctionner.

Que sont les détecteurs d'IA ?

L'IA peut être détectée. Il ne s'agit pas de magie noire, mais d'un domaine qui fait l'objet de nombreuses recherches. À une époque où les contenus générés par l'IA sont de plus en plus répandus dans les milieux universitaires, les médias et les entreprises, la capacité à distinguer les textes rédigés par des humains de ceux rédigés par des machines est une compétence essentielle. L'IA fait des choix linguistiques, stylistiques et sémantiques qui peuvent tous être détectés par un œil averti ou un logiciel de détection automatisé suffisamment performant. En effet, nous pouvons comprendre pourquoi l'IA s'exprime de cette manière et quels sont les schémas que nous pouvons utiliser pour la repérer.

Comment fonctionnent les grands modèles linguistiques ?

Avant d'aborder le fonctionnement des logiciels de détection de l'IA, il est important de comprendre que les modèles d'intelligence artificielle sont des distributions de probabilités. Un modèle linguistique à grande échelle (LLM) tel que ChatGPT en est une version extrêmement complexe, qui prédit en permanence le mot ou « token » le plus probable dans une séquence. Ces distributions de probabilités sont apprises à partir d'une quantité massive de données, qui englobe souvent une partie importante de l'Internet public.

Une question qui revient souvent est la suivante : « Les modèles linguistiques basés sur l'IA sont-ils la moyenne de tous les écrits humains ? » La réponse est clairement non. Les modèles linguistiques ne se contentent pas de calculer la moyenne de tout ce que disent les humains. D'une part, les modèles linguistiques font des choix très idiosyncrasiques. Ils sont également très biaisés en raison des ensembles de données d'entraînement et des préjugés de leurs créateurs. Enfin, les LLM modernes sont optimisés pour suivre des instructions et dire ce que les utilisateurs veulent entendre, plutôt que pour être corrects ou précis, une caractéristique qui en fait des assistants utiles mais des sources de vérité peu fiables.

C'est le résultat de la procédure moderne de formation LLM, qui comporte trois étapes :

  • Pré-entraînement : au cours de cette phase d'entraînement, le modèle apprend les modèles statistiques du langage. Les biais des données d'entraînement apparaissent dans ces modèles. Par exemple, les données qui apparaissent fréquemment sur Internet, comme Wikipédia, sont surreprésentées, ce qui explique pourquoi les textes générés par l'IA ont souvent un ton formel et encyclopédique. De plus, la main-d'œuvre bon marché et externalisée est utilisée pour créer les données d'entraînement, ce qui explique pourquoi des mots tels que « delve », « tapestry » et « intricate » sont extrêmement courants dans les textes générés par l'IA, reflétant les normes linguistiques des créateurs de données plutôt que celles des utilisateurs finaux.
  • Ajustement des instructions : au cours de cette phase, le modèle apprend à suivre des instructions et à obéir à des ordres. En conséquence, le modèle apprend qu'il vaut mieux suivre les instructions que présenter des informations précises et correctes. Il en résulte un comportement flagorneur ou « complaisant », dans lequel l'IA donne la priorité à la génération d'une réponse utile et agréable à entendre, même si elle doit pour cela inventer des faits ou « halluciner ». Il est plus important pour elle de plaire aux gens que de fournir des informations correctes.
  • Alignement : au cours de cette phase, le modèle apprend à dire ce que les gens aiment et préfèrent. Il apprend ce qu'il est « bon » ou « mauvais » de dire. Cependant, ces données sur les préférences peuvent être extrêmement biaisées, favorisant souvent les réponses neutres, sûres et inoffensives. Ce processus peut priver le modèle d'une voix distincte, l'amenant à éviter les controverses ou les opinions tranchées. Le LLM n'a aucun fondement sous-jacent en termes de vérité ou d'exactitude.

Les modèles d'IA générative sont des produits commercialisés par des entreprises technologiques qui injectent intentionnellement des biais et des comportements qui se reflètent dans leurs résultats.

Quels sont les modèles dans le langage de l'IA ?

Une fois que vous comprenez comment les LLM sont entraînés, vous pouvez repérer les « indices » des outils d'écriture IA. Ce n'est souvent pas un élément déterminant, mais une combinaison de tous ces mots qui déclenche les détecteurs.

Langue et style

  • Choix de mots : les rédacteurs de contenu IA ont des mots préférés, tels que : aspect, défis, approfondir, améliorer, tapisserie, testament, authentique, complet, crucial, significatif, transformateur, et des adverbes comme « en outre » et « de plus ». Cela s'explique par le biais des ensembles de données de pré-entraînement. L'utilisation fréquente de ces mots peut créer un ton excessivement formel ou grandiose, qui semble souvent déplacé dans le contexte d'une dissertation étudiante typique ou d'une communication informelle.
  • Modèles de formulation : L'écriture IA utilise des modèles de formulation tels que « alors que nous [verbe] le sujet », « il est important de noter », « non seulement, mais aussi », « ouvrant la voie » et « lorsqu'il s'agit de ». Ces expressions, bien que grammaticalement correctes, sont souvent utilisées comme des mots de remplissage dans la conversation et peuvent donner à l'écriture un caractère générique et stéréotypé.
  • Orthographe et grammaire : l'écriture IA utilise généralement une orthographe et une grammaire parfaites, et privilégie les phrases complexes. L'écriture humaine mélange phrases simples et complexes, et même les rédacteurs experts utilisent parfois des structures grammaticales qui ne sont pas « parfaites au sens strict » pour des raisons stylistiques, comme l'utilisation de fragments de phrases pour mettre l'accent.

Structure et organisation

  • Paragraphes et structure des phrases : l'écriture IA privilégie généralement des paragraphes très organisés, tous de longueur similaire, et des structures de type liste. Cela peut donner lieu à un rythme monotone qui manque de la variation naturelle propre à l'écriture humaine. Cela peut également s'appliquer à la longueur des phrases.
  • Introductions et conclusions : les essais générés par l'IA ont généralement une introduction et une conclusion très soignées, et la conclusion est souvent très longue, commence par « Dans l'ensemble » ou « En conclusion » et reprend la plupart de ce qui a déjà été écrit, reformulant essentiellement la thèse et les points principaux sans ajouter de nouvelles idées ou synthèses.

Objectif et personnalité

  • Objectif et intention : Le texte est généralement très vague et rempli de généralités. Cela s'explique par le fait que l'ajustement des instructions accorde une priorité excessive au respect des consignes, et afin de rester dans le sujet, le modèle apprend qu'il vaut mieux être très vague et générique afin de minimiser le risque d'être incorrect.
  • Réflexion et métacognition : l'IA est très mauvaise pour réfléchir et relier l'écriture à des expériences personnelles... car elle n'a aucune expérience personnelle à laquelle se référer ! L'écriture humaine peut refléter la voix unique et l'expérience personnelle de son auteur, établir des liens et générer des idées novatrices qui ne sont pas simplement un remix d'informations existantes.
  • Changements brusques de style et de ton : Il arrive parfois que le ton et le style changent de manière très brutale et discordante. Cela se produit lorsqu'un étudiant utilise l'IA pour une partie de son travail d'écriture, mais pas pour la totalité, ce qui donne un résultat final incohérent et décousu.

Comment fonctionne la détection par IA : trois étapes

  • Entraîner le modèle de détection IA : tout d'abord, le modèle est entraîné. Les premiers détecteurs IA ne fonctionnaient pas très bien, car ils essayaient de détecter des fragments de texte présentant une perplexité ou une irrégularité élevées. La perplexité correspond au degré d'imprévisibilité ou de surprise que chaque mot d'un texte représente pour un grand modèle linguistique. La burstiness correspond à la variation de la perplexité au cours d'un document. Cependant, cette approche présente plusieurs défauts et échoue souvent à détecter les résultats générés par l'IA. De plus, elle n'utilise qu'un ensemble limité de données textuelles pour l'entraînement. Les modèles modernes et performants, tels que Pangram, utilisent un ensemble de données plus large et emploient des techniques telles que l'apprentissage actif pour obtenir des résultats plus précis.
  • Saisissez le texte à classer et tokenisez-le : un utilisateur saisit le texte. Lorsqu'un classificateur reçoit un texte en entrée, il le tokenise. Cela signifie qu'il prend tout le texte et le décompose en une série de chiffres que le modèle peut interpréter. Le modèle transforme ensuite chaque token en un embedding, qui est un vecteur de chiffres représentant la signification de chaque token.
  • Classer le jeton humain ou IA: l'entrée est transmise au réseau neuronal, qui produit une intégration de sortie. Une tête de classificateur transforme l'intégration de sortie en une prédiction 0 ou 1, où 0 correspond à l'étiquette humaine et 1 à l'étiquette IA.

Qu'en est-il des faux positifs et des faux négatifs ?

La valeur d'un outil de détection de l'IA se mesure au nombre de faux positifs (FPR) et de faux négatifs (NPR) résultant de son utilisation. Un faux positif se produit lorsqu'un détecteur prédit à tort qu'un échantillon de contenu rédigé par un humain a été écrit par une IA. À l'inverse, un faux négatif se produit lorsqu'un échantillon généré par une IA est prédit à tort comme étant un texte rédigé par un humain.

Détection humaine vs détection automatisée

Si vous choisissez de détecter l'IA à l'œil nu, vous devez être formé. Les non-experts ne peuvent pas faire mieux que des suppositions aléatoires. Même les linguistes avancés ne peuvent pas détecter l'IA sans formation explicite. Nous recommandons d'utiliser les deux méthodes pour obtenir les meilleurs résultats, créant ainsi un processus d'évaluation plus robuste et plus équitable.

Les détecteurs de contenu IA peuvent vous dire si quelque chose a été généré par des outils IA ou non. Les humains peuvent non seulement vous dire si quelque chose a été généré par une IA, mais ils peuvent également ajouter du contexte et des nuances à cette décision. Un humain connaît le contexte : les précédents exemples d'écrits des élèves, le niveau d'écriture attendu pour chaque classe et à quoi ressemble une réponse type à un devoir donné par un élève. Ce contexte est essentiel, car la pertinence de l'utilisation de l'IA peut varier considérablement en fonction des instructions du devoir.

Les outils de détection basés sur l'IA ne sont qu'un début. Ils ne constituent pas une preuve concluante qu'un étudiant a enfreint l'intégrité académique, mais plutôt un premier indice justifiant une enquête plus approfondie et contextualisée. L'utilisation de l'IA peut être involontaire, accidentelle, voire autorisée dans le cadre de votre devoir particulier : tout dépend !

Bonus : Qu'en est-il des humanisateurs ?!

Les humaniseurs sont des outils utilisés pour « humaniser » le contenu généré par l'IA afin d'éviter sa détection. Les rédacteurs de contenu les utilisent souvent pour modifier l'apparence des textes générés par l'IA. Les humaniseurs paraphrasent le texte, suppriment certains mots et ajoutent des « erreurs » semblables à celles commises par les humains à un contenu. Cela rend parfois le texte pratiquement illisible ou en réduit considérablement la qualité. De nombreux détecteurs d'IA entraînent leur logiciel à détecter les textes humanisés. L'utilisation d'un humaniseur comporte souvent un risque, car elle peut réduire considérablement la qualité du texte, ce qui est particulièrement préoccupant pour les travaux des étudiants.

Maintenant que vous savez comment ils fonctionnent, essayez votre propre contenu. S'agit-il d'IA ou d'humain ?

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.