Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Annonce de l'identification par IA : Pangram peut distinguer les différents LLM les uns des autres.

Bradley Emi
11 février 2025

Pangram est le logiciel leader dans la détection des textes générés par l'IA écrits par ChatGPT, Claude, Gemini et bien d'autres, et dans la distinction entre les textes écrits par l'IA et les textes écrits par des humains.

Nous allons désormais plus loin en lançant un modèle avancé capable non seulement de détecter les contenus générés par l'IA, mais aussi d'identifier le LLM à l'origine d'un texte généré par l'IA. Nous appelons cette nouvelle technologie « AI Identification ».

Identification par IA

Intuitivement, les gens commencent à identifier que les différents LLM ont des styles d'écriture différents. Par exemple, ChatGPT est connu pour être assez direct et franc, Claude est connu pour être plus fluide et conversationnel, Grok est connu pour être sans censure et provocateur, et Deepseek-R1 commence à être connu pour être décousu et verbeux.

Graham Neubig se moque des différentes tendances stylistiques des LLM.

Ethan Mollick s'interroge sur la personnalité agréable de Claude Sonnet.

Une étude récente menée par Lisa Dunlap et ses collaborateurs à l'université de Berkeley a examiné les différences qualitatives (ou, de manière informelle, les « vibrations ») entre différents modèles d'apprentissage profond (LLM). Ils ont fait de nombreuses découvertes intéressantes, notamment que « Llama est plus humoristique, utilise davantage de mise en forme, fournit plus d'exemples et commente beaucoup moins l'éthique que GPT et Claude ». Cela implique que les performances des modèles ne correspondent pas toujours aux préférences humaines : même si GPT-4 et Claude-3.5 sont des modèles plus avancés que la série Llama, Llama semble toujours surpasser ses capacités sur Chatbot Arena, un classement participatif des LLM basé sur le système Elo et fondé sur les préférences en matière de réponses à des questions identiques. Les modèles qui obtiennent de bons résultats sur Chatbot Arena sont-ils plus intelligents et plus performants, ou essaient-ils simplement de manipuler la psychologie humaine de manière à se rendre plus « sympathiques » ? Et certains modèles sont plus utiles et plus sympathiques que d'autres, est-il vraiment important qu'ils soient moins performants pour résoudre des problèmes de raisonnement de niveau doctoral ? Ces questions méritent d'être étudiées et sont importantes pour comprendre l'utilité de systèmes tels que Chatbot Arena par rapport aux évaluations traditionnelles des modèles.

Chez Pangram, nous nous sommes demandé s'il était possible que notre modèle utilise ces vibrations pour identifier et distinguer ces LLM les uns des autres.

Système d'identification par IA de Pangram

Tout comme nous entraînons notre modèle de détection IA de base à distinguer les textes rédigés par une IA de ceux rédigés par des humains, nous entraînons également ce même modèle de détection à identifier l'IA à l'aide d'une technique appelée apprentissage multitâche. En pratique, nous classons les différents modèles linguistiques en 9 familles, que nous avons déterminées à l'issue d'expérimentations approfondies.

Les familles sont les suivantes :

  1. GPT-3.5
  2. GPT-4 (comprend GPT-4o, GPT-4-turbo et GPT-4o-mini)
  3. Modèles de raisonnement OpenAI
  4. Claude
  5. Google (inclut les deux variantes Gemini et Gemma)
  6. Grok
  7. DeepSeek
  8. Amazon Nova
  9. Autres (y compris LLaMA, Mistral, Qwen et autres dérivés open source de ces modèles)

Concrètement, nous y parvenons en ajoutant une autre « tête » à notre réseau neuronal. Lorsque nous supervisons la tâche de détection de l'IA, nous supervisons également la tâche d'identification de l'IA en transmettant l'étiquette du modèle au réseau et en rétropropagant l'erreur dans l'identification de l'IA ainsi que dans la prédiction de détection.

Source de l'image : GeeksForGeeks

Presque toutes les couches du modèle sont partagées entre les deux tâches, seule la couche de prédiction finale est divisée.

Nous constatons dans l'apprentissage multitâche que certaines tâches s'entraident lorsqu'elles sont apprises ensemble, tandis que d'autres se nuisent mutuellement. En biologie, un concept similaire est celui de symbiose par opposition au parasitisme. Par exemple, un poisson-clown vivant dans une anémone de mer est un exemple de symbiose : le poisson-clown se nourrit des prédateurs qui peuvent nuire à l'anémone, tandis que le poisson-clown est protégé de ses propres prédateurs en se camouflant et en se cachant à l'intérieur de l'anémone.

Nous constatons que l'ajout de la tâche d'identification des LLM est symbiotique avec la tâche de détection des LLM. En d'autres termes, demander à notre modèle non seulement de détecter les textes générés par l'IA, mais aussi d'identifier le modèle dont ils proviennent, est globalement utile pour pouvoir détecter l'IA. D'autres chercheurs ont également confirmé que les différents LLM sont non seulement distinguables des textes humains, mais aussi les uns des autres.

Un encodage est une représentation d'un morceau de texte sous forme de vecteur numérique. Les valeurs réelles de l'encodage n'ont pas de sens isolément, mais lorsque deux encodages sont proches l'un de l'autre, cela signifie qu'ils ont soit une signification similaire, soit un style similaire. À l'aide d'une technique appelée UMAP, nous pouvons visualiser les encodages, qui sont très dimensionnels, dans un espace 2D. Ces auteurs ont constaté que lorsque des documents rédigés par des humains et des LLM sont convertis en intégrations de style, comme vous pouvez le voir dans l'image ci-dessus, tous les documents correspondant au même LLM sont séparables dans l'espace d'intégration ! Cela signifie que, dans l'ensemble, tous les documents rédigés par le même LLM sont plus proches en termes de style que ceux rédigés par différents LLM, ou par des LLM et des humains.

Ce résultat nous a convaincus qu'il était possible de créer un classificateur capable d'identifier le LLM source.

Précision de l'identification par IA

Notre modèle identifie avec une précision de 93 % la famille LLM dont provient un texte généré par l'IA. Vous trouverez ci-dessous la matrice de confusion, qui montre la fréquence à laquelle notre modèle identifie correctement chaque famille LLM (cellules diagonales) par rapport à la fréquence à laquelle il confond un LLM avec un autre (cellules hors diagonale). Plus la couleur est foncée, plus le nombre de prédictions tombant dans cette cellule est élevé. Un modèle parfait aurait des carrés foncés uniquement le long de la diagonale et des carrés blancs partout ailleurs.

Quelques observations intéressantes concernant notre matrice de confusion :

  • Les confusions sont plus fréquentes entre les familles de modèles. Par exemple, GPT-4 est souvent confondu avec la série de raisonnements OpenAI. Cela est logique, car GPT-4 est susceptible d'être un composant ou un point de départ pour les modèles de raisonnement OpenAI !

  • Le modèle confond plus souvent les LLM avec « Autre » qu'avec des LLM spécifiques. Cela montre que dans les cas où le modèle n'est pas certain, il est plus susceptible de se rabattre sur « Autre » plutôt que de s'engager sur un LLM spécifique.

Bien que le classificateur LLM ne soit pas parfait, il est souvent précis et, surtout, lorsqu'il se trompe, il confond certains systèmes d'IA avec d'autres systèmes d'IA, mais ne confond pas les résultats des systèmes d'IA avec de véritables écrits humains.

Pourquoi l'identification par IA est-elle importante ?

Nous avons estimé qu'il était important d'aller au-delà de la détection de l'IA et de résoudre également le problème de l'identification de l'IA, et ce pour plusieurs raisons.

  • Tout d'abord, nous pensons qu'apprendre au modèle à distinguer les styles d'écriture de différents LLM, ce qui est une tâche plus difficile que de simplement identifier si quelque chose est généré par l'IA ou non, contribue à renforcer les performances du détecteur d'IA lui-même. En demandant au modèle d'aller au-delà de ses capacités, celui-ci acquiert en quelque sorte des compétences avancées et des connaissances latentes qui l'aident à généraliser la détection des textes générés par l'IA avec une plus grande précision.

  • L'interprétabilité est une autre raison pour laquelle nous souhaitons afficher les résultats du classificateur LLM. Nous voulons nous assurer que le modèle sait réellement ce qu'il fait en coulisses et qu'il ne se contente pas de faire des suppositions aléatoires (comme beaucoup d'autres détecteurs aléatoires). En affichant non seulement le score IA, mais aussi le LLM d'où provient le texte, nous espérons renforcer la confiance dans la capacité du modèle à comprendre les nuances du style d'écriture IA.

  • Enfin, nous souhaitons découvrir des tendances au fil du temps : quels LLM sont utilisés dans la pratique et à quelle fréquence ? Quels sont les LLM préférés des étudiants, des fraudeurs et des programmeurs ? Ce sont là des questions auxquelles nous espérons pouvoir répondre dans le cadre de futures études.

Conclusion

Nous espérons que vous apprécierez notre fonctionnalité d'identification par IA et qu'elle vous aidera à mieux comprendre les personnalités et les styles inhérents aux différentes familles de LLM. Pour plus d'informations, veuillez contacter info@pangram.com!

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.