Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Le détecteur de texte Pangram AI est désormais multilingue !

Bradley Emi
1er juillet 2024

Photo de Valentin Antonucci.

Nous sommes ravis d'annoncer une mise à jour majeure de Pangram Text, notre modèle phare de détection de l'IA. Pangram Text peut désormais détecter les textes générés par l'IA en espagnol, français, italien, portugais, allemand, russe et chinois mandarin, avec la même précision de pointe que pour les textes rédigés en anglais. Nous déployons immédiatement notre nouveau modèle multilingue afin de protéger les plateformes en ligne contre le spam généré par l'IA.

Analyse comparative

Afin de tester la précision de notre modèle sur des langues autres que l'anglais, nous utilisons trois corpus multilingues volumineux et variés provenant de différents domaines : les avis multilingues d'Amazon, Wikipédia et XLSum (BBC News International).

Pour la partie humaine du benchmark, nous échantillonnons des documents aléatoires qui passent nos filtres de contrôle de cohérence. Pour la partie IA du benchmark, nous utilisons un mélange de GPT-3.5, GPT-4 et GPT-4o. Tout d'abord, nous demandons au LLM de résumer le document réel, par exemple « De quoi traite cette critique ? ». Ensuite, nous lui demandons de générer une critique, un article ou un reportage à partir du résumé. La génération du benchmark de cette manière élimine la possibilité de bruit de label et garantit que les distributions de données humaines et IA sont aussi similaires que possible.

LangueExactitude des avis AmazonExactitude de WikipédiaXLSum (BBC News) Précision
Espagnol99.59%99.75%99.75%
Français98.84%99.33%98.50%
italienSans objet99.82%Sans objet
allemand99.44%99.95%Sans objet
PortugaisSans objet99.83%99.70%
RusseSans objet98.34%99.35%
Chinois99.70%99.54%98.10%

FAQ

  • Comment avez-vous mis à jour le modèle pour prendre en charge ces langues ?

Comme notre modèle repose sur une architecture similaire à celle des grands modèles linguistiques modernes, nous utilisons un pré-entraînement à grande échelle afin de garantir que notre infrastructure soit entraînée sur un vaste corpus multilingue avant d'affiner un module de détection IA. Nous utilisons également un tokeniseur qui prend en charge de nombreuses langues, dont le russe et le chinois.

  • Pourquoi avez-vous choisi ces langues en particulier ?

Nous avons choisi les langues qui représentent la majorité des langues utilisées sur Internet.

  • Que se passe-t-il si je soumets un texte dans une langue qui n'est pas prise en charge ?

Nous utilisons Amazon Comprehend pour détecter la langue du texte saisi. Si la langue n'est pas prise en charge, nous renvoyons « Langue non prise en charge » comme prédiction.

  • Le modèle s'améliorera-t-il avec le temps ?

Oui, nous prévoyons de publier de futures mises à jour avec des performances améliorées pour les langues autres que l'anglais, car nous continuons à enrichir notre ensemble de données multilingues grâce à l'apprentissage actif.

  • Qu'en est-il des autres langues ?

Nous prévoyons de prendre en charge davantage de langues à l'avenir. Si vous souhaitez qu'une langue particulière soit prise en charge, n'hésitez pas à nous en faire part !

Contactez-nous à l'adresse info@pangram.com pour plus d'informations sur la détection multilingue par IA.

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.