Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
Il y a deux mois, Pangram a lancé le premier modèle de détection IA multilingue. Aujourd'hui, nous sommes prêts à annoncer une mise à jour ! Pangram prend désormais officiellement en charge les 20 langues les plus utilisées sur Internet et fonctionne également très bien avec de nombreuses autres langues. Nous constatons des performances particulièrement solides et nettement améliorées en arabe, japonais, coréen et hindi.
Nous avons évalué environ 2 000 documents par langue dans notre ensemble officiel. La partie humaine est un mélange de critiques réelles, d'articles d'actualité et d'articles Wikipédia. La partie IA est un ensemble d'essais, d'articles d'actualité et de billets de blog que nous avons demandé à GPT-4o d'écrire dans différentes longueurs, styles et sur différents sujets.
| Langue | Précision | Taux de faux positifs | Taux de faux négatifs |
|---|---|---|---|
| Arabe | 99.95% | 0.10% | 0.00% |
| Tchèque | 99.95% | 0.00% | 0.11% |
| allemand | 99.85% | 0.00% | 0.32% |
| grec | 99.90% | 0.00% | 0.21% |
| Espagnol | 100.00% | 0.00% | 0.00% |
| persan | 100.00% | 0.00% | 0.00% |
| Français | 100.00% | 0.00% | 0.00% |
| hindi | 99.79% | 0.00% | 0.42% |
| Hongrois | 99.49% | 0.10% | 0.95% |
| italien | 100.00% | 0.00% | 0.00% |
| japonais | 100.00% | 0.00% | 0.00% |
| néerlandais | 99.95% | 0.10% | 0.00% |
| Polonais | 100.00% | 0.00% | 0.00% |
| Portugais | 100.00% | 0.00% | 0.00% |
| roumain | 99.95% | 0.10% | 0.00% |
| Russe | 100.00% | 0.00% | 0.00% |
| Suédois | 99.95% | 0.00% | 0.11% |
| turc | 99.90% | 0.00% | 0.21% |
| Ukrainien | 99.95% | 0.00% | 0.11% |
| ourdou | 99.44% | 0.00% | 1.16% |
| Vietnamien | 99.95% | 0.00% | 0.11% |
| Chinois | 99.95% | 0.00% | 0.11% |
Voici les principales modifications que nous avons apportées pour améliorer notre assistance multilingue :
Nous avons mené une campagne d'apprentissage actif des données à l'échelle du Web, axée sur les 20 langues les plus utilisées sur Internet.
Nous avons modifié le tokenizer afin de mieux prendre en charge les langues autres que l'anglais.
Nous avons augmenté le nombre de paramètres du modèle de base et des adaptateurs LoRA.
Nous avons appliqué une augmentation des données pour traduire automatiquement une fraction aléatoire de notre ensemble de données avant l'entraînement.
Nous avons corrigé un bug dans le comptage des mots qui entraînait une sous-représentation accidentelle des langues d'Asie orientale dans l'ensemble d'apprentissage.
Le fondement même de notre processus de création de modèles avec des taux de faux positifs extrêmement faibles est l'apprentissage actif : en termes simples, nous exploitons l'Internet d'avant 2022 à la recherche d'exemples sur lesquels notre modèle fonctionne mal (par exemple, les faux positifs), nous ajoutons ces exemples à notre ensemble d'entraînement, nous réentraînons le modèle et nous répétons le processus. Nous détaillons cet algorithme dans notre rapport technique.
Nous pouvons appliquer notre approche d'apprentissage actif à certains grands ensembles de données multilingues sur le Web afin de trouver des textes multilingues avec lesquels notre modèle actuel a des difficultés, puis utiliser ces données pour itérer, en combinaison avec notre vaste bibliothèque de prompts pour créer des miroirs synthétiques : des textes générés par l'IA qui ressemblent aux faux positifs que nous avons trouvés. Bien que nous nous concentrions sur les 20 langues les plus utilisées sur Internet, nous supprimons l'étape de filtrage linguistique de notre pipeline de données : cela signifie que les textes de toutes les langues peuvent faire l'objet d'une extraction négative rigoureuse et être inclus dans notre ensemble d'entraînement.
L'un des avantages de notre approche d'apprentissage actif est qu'elle rééquilibre automatiquement la répartition des langues en fonction de la précision de notre modèle. Les langues disposant de peu de ressources sont sous-représentées en ligne, mais en raison de ce déséquilibre, notre premier modèle fonctionne initialement mal avec les langues disposant de peu de ressources, ce qui fait que davantage de textes provenant de langues peu courantes apparaissent dans le processus d'extraction des négatifs difficiles. Au cours du processus d'apprentissage actif, nous constatons que les données provenant de langues riches en ressources telles que l'anglais, l'espagnol et le chinois diminuent progressivement en proportion dans notre ensemble d'entraînement, tandis que les langues moins courantes augmentent en proportion. Nous trouvons que c'est une solution relativement élégante au déséquilibre naturel de la répartition des données dans l'entraînement des modèles multilingues. Grâce à notre algorithme d'apprentissage actif, le modèle est capable de sélectionner lui-même les données dans les langues qu'il a besoin de voir davantage.
Afin de mieux prendre en charge les textes multilingues dans le domaine d'entrée, nous voulions également nous assurer que le LLM de base que nous utilisons pour construire notre classificateur maîtrise également de nombreuses langues autres que l'anglais. Nous avons passé en revue plusieurs modèles LLM et tokeniseurs sur notre ensemble de données afin de trouver celui qui offre les meilleures performances globales parmi un large éventail de langues autres que l'anglais. Nous avons constaté que les performances sur les benchmarks multilingues ne semblent pas être fortement corrélées aux performances du modèle sur notre tâche de détection IA : en d'autres termes, même si le modèle de base est capable de résoudre des tâches de raisonnement et de répondre à des questions dans d'autres langues, l'efficacité du transfert de compétences vers la détection IA multilingue varie considérablement.
Nous avons également constaté que nos modèles initiaux que nous avions entraînés avaient tendance à sous-ajuster la nouvelle distribution multilingue : nous avons initialement observé une perte d'entraînement plus élevée. À cette fin, nous avons également augmenté la taille du modèle de base ainsi que le nombre de paramètres dans nos adaptateurs LoRA, et nous avons également entraîné le modèle pour plus d'étapes. (Comme nous sommes dans un régime d'apprentissage actif / de données élevées, nous ne formons presque jamais pendant plus d'une époque. Dans ce cas, nous avons simplement dû étendre la taille de l'époque !)
Même avec un apprentissage actif, la diversité des données dans les langues autres que l'anglais est nettement inférieure à la diversité et au volume des données en anglais disponibles en ligne, et nous ne pouvons pas corriger entièrement cette situation en rééquilibrant simplement la répartition des langues dans l'ensemble de données d'apprentissage. En gros, cela signifie qu'il existe certaines données en anglais qui sont précieuses, mais qui n'existent tout simplement pas ou n'ont pas d'équivalent dans d'autres langues. Nous avons donc décidé d'appliquer de manière aléatoire une augmentation par traduction automatique à une petite partie de notre ensemble de données (dans notre cas, nous avons utilisé Amazon Translate).
Bien qu'il ne soit pas courant d'appliquer des augmentations de traduction automatique à l'ensemble d'apprentissage dans le cadre de la formation LLM, car les données traduites automatiquement sont souvent peu naturelles et souffrent d'un « jargon de traduction », dans notre cas, comme nous ne formons pas un modèle génératif, cela ne semble pas affecter la qualité du résultat et nous avons constaté une amélioration de nos indicateurs après avoir appliqué cette augmentation.
Nous prenons l'espagnol comme exemple caractéristique d'une langue riche en ressources qui était auparavant prise en charge par Pangram Text, mais qui est désormais nettement améliorée. Nous mesurons le taux de faux positifs dans divers domaines.
| Ensemble de données | Taux de faux positifs (avant) | Taux de faux positifs (après) | Nombre d'exemples |
|---|---|---|---|
| Avis sur Amazon Espagne | 0.09% | 0% | 20,000 |
| Wikilingua (texte de l'article WikiHow) | 3.17% | 0.14% | 113,000 |
| XL-SUM (articles d'actualité en espagnol) | 0.08% | 0% | 3,800 |
| Wikipédia en espagnol | 0.29% | 0.04% | 67,000 |
| Espagnol CulturaX | 0.22% | 0.01% | 1,800,000 |
| Articles de blog espagnols que nous avons sélectionnés manuellement | 0% | 0% | 60 |
Nous avons également mesuré le taux de faux négatifs (le taux auquel le texte généré par l'IA est incorrectement classé comme humain) pour divers modèles linguistiques de grande taille. Dans le cadre de cette expérience, nous avons dressé une liste de consignes destinées aux LLM afin qu'ils génèrent des essais, des articles de blog et des articles d'actualité de différentes longueurs et styles, puis nous avons traduit ces consignes en espagnol. Les LLM sont eux-mêmes multilingues, ils répondent donc aux instructions en espagnol.
| Modèle | Taux de faux négatifs (avant) | Taux de faux négatifs (après) | Nombre d'exemples |
|---|---|---|---|
| GPT-4o | 2.1% | 0% | 1,400 |
| Claude 3.5 Sonnet | 0.7% | 0% | 1,400 |
| Claude 3 Opus | 1.05% | 0% | 1,400 |
| Gemini 1.5 Pro | 2.85% | 0% | 1,400 |
Comme nous pouvons le constater, notre modèle mis à jour permet une détection parfaite sur tous les LLM testés, ce qui représente une amélioration significative par rapport à notre version précédente.
Deux des langues sur lesquelles nous nous sommes particulièrement concentrés sont largement parlées dans le monde, mais sont en réalité moins courantes sur Internet : l'arabe et le japonais.
| Ensemble de données | Taux de faux positifs en arabe | Taux de faux positifs japonais | Exemples en arabe | Exemples japonais |
|---|---|---|---|---|
| Avis Amazon | 0% | 0% | Sans objet | 20,000 |
| AR-AES (écriture arabe des élèves) | 0% | Sans objet | 2,000 | Sans objet |
| Wikilingua (texte de l'article WikiHow) | 0.58% | 0.55% | 29,000 | 12,000 |
| XL-SUM (articles d'actualité dans la langue maternelle) | 0% | 0% | 4,000 | 733 |
| Wikipédia | 0.09% | 0.009% | 31,000 | 96,000 |
| CulturaX | 0.08% | 0.21% | 1,785,000 | 1,409,000 |
| Articles de blog que nous avons sélectionnés manuellement | 0% | 0% | 60 | 60 |
Auparavant, nous ne prenions pas en charge ces deux langues, ce qui entraînait des taux de faux négatifs extrêmement élevés. Nous sommes désormais en mesure de prédire de manière très fiable les textes arabes et japonais générés par l'IA.
| Modèle | FNR arabe | FNR japonais |
|---|---|---|
| GPT-4o | 0% | 0% |
| Claude 3.5 Sonnet | 0% | 0% |
| Claude 3 Opus | 0% | 0% |
| Gemini 1.5 Pro | 0% | 0.21% |
Comme nous pouvons le constater, notre modèle mis à jour atteint une détection quasi parfaite sur tous les LLM testés, tant pour l'arabe que pour le japonais, avec un taux de faux négatifs très faible de 0,21 % pour Gemini 1.5 Pro en japonais.
Les résultats complets du benchmark linguistique sont disponibles sur demande.
Bien que nos performances soient excellentes sur les textes web natifs, notre modèle a parfois du mal à détecter les « traductions approximatives », c'est-à-dire les textes mal traduits ou qui ne semblent pas naturels. Pour compliquer encore les choses, de nombreuses personnes utilisent désormais directement des modèles LLM tels que ChatGPT pour leurs tâches de traduction. Les textes traduits par un modèle LLM doivent-ils être classés comme humains ou comme IA ? Cela dépend du degré d'approximation de la traduction, mais aussi de l'utilisation qui en est faite en aval. Un professeur d'espagnol peut considérer l'utilisation de la traduction automatique dans un devoir comme une fraude académique, mais un éditeur peut souhaiter autoriser les œuvres traduites dans le cadre de son processus d'assurance qualité. Pangram s'efforce activement de comprendre les textes traduits comme une « troisième modalité » qui se situe quelque part entre l'humain et l'IA, et de fournir davantage d'informations à nos utilisateurs afin que les consommateurs en aval de notre modèle puissent décider ce qui leur convient le mieux.
Vous avez d'autres questions ? Contactez-nous à l'adresse info@pangram.com!
