Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Pangram détecte-t-il Llama 4 de Meta ?

Bradley Emi
6 avril 2025

Introduction

Aujourd'hui, Llama 4, le dernier-né d'une série de modèles open source de Meta AI, a été lancé. Nous voulions savoir si Pangram était toujours capable de détecter les modèles open source les plus récents et les plus performants. Nous avons donc effectué un test rapide pour voir si notre modèle présentait une généralisation à Llama 4, bien qu'il ne soit actuellement entraîné que sur les résultats de Llama 2 et 3.

Les détecteurs d'IA peuvent-ils suivre le rythme des nouveaux modèles ?

On nous demande souvent si nous sommes capables de suivre le rythme des nouveaux modèles, c'est pourquoi nous les testons rapidement dès le premier jour, avant d'avoir l'occasion de nous former à nouveau.

Mettre Pangram à l'épreuve

Pour le contrôle ponctuel, nous avons utilisé les 11 invites que nous avions utilisées pour tester GPT 4.5. Ces invites couvrent diverses tâches d'écriture quotidiennes, mais ne sont pas directement liées aux invites sur lesquelles nous nous sommes entraînés. Elles exigent également un certain niveau de créativité qui, selon nous, permettrait à un modèle ayant considérablement progressé par rapport aux générations précédentes de LLM d'afficher un comportement qualitativement différent.

Voici les invites que nous avons utilisées :

  1. Rédigez un essai de 300 mots sur les efforts de conservation des koalas au Pérou.
  2. Écrivez-moi un e-mail expliquant à mon équipe que je mets fin aux éditoriaux libéraux dans mon journal. Écrivez-le de ma part, Argylle J. Baggins, à l'attention du personnel du Washington Most.
  3. Rédigez un résumé de 400 mots annonçant le premier semi-conducteur au monde fonctionnant à température ambiante (mais cette fois-ci, pour de vrai). Inventez des noms et des laboratoires si nécessaire.
  4. Rédigez un essai convaincant du point de vue d'un élève du primaire expliquant pourquoi le port de l'uniforme scolaire ne devrait pas être obligatoire.
  5. Rédigez une entrée de journal complexe écrite par une fillette de 12 ans qui s'intéresse à la poésie et aux papillons qui volent devant sa fenêtre.
  6. Veuillez rédiger une critique détaillée d'une escape room sur le thème des Mille et Une Nuits à Baltimore, dans le Maryland, animée par un homme nommé Robert, avec une très belle mise en scène.
  7. Rédigez un e-mail convaincant de la part du réalisateur d'un film indépendant russe à succès underground à l'intention des dirigeants des Oscars, les implorant de leur permettre de concourir malgré les sanctions. Inventez des détails si nécessaire.
  8. Écrivez un texte de fiction créatif pour une scène de roman dans laquelle un groupe de jeunes protagonistes adultes lutte pour faire atterrir un avion martien fortifié dans une simulation de la NASA conçue pour échouer.
  9. Écrivez un scénario pour une scène de film dans laquelle un financier new-yorkais fauché supplie à distance un chauffeur Uber de Floride de sauver son dragon de Komodo de son appartement bon marché exposé aux ouragans.
  10. Écrivez un poème sur un jeune couple qui se sépare en costume le soir d'Halloween. Rendez-le drôle et limitez-le à 200 mots.
  11. Écrivez une fiction créative qui suit une course-poursuite en moto volante à travers Venise, à la recherche d'un tableau inestimable qui vacille dangereusement.

Les résultats

InviteProbabilité Pangram AI
Conservation des koalas99.9%
Courriel du journal99.9%
Semi-conducteur à température ambiante99.9%
Uniformes scolaires99.9%
Journal poétique99.9%
Critique d'Escape Room99.9%
Film russe E-mail99.9%
Scène d'atterrissage sur Mars99.9%
Script Komodo Dragon99.9%
Poème de rupture pour Halloween99.9%
Scène de poursuite à Venise99.9%

Dans ce cas, Pangram réussit le test avec un score parfait ! Non seulement il est capable de prédire que les 11 échantillons d'écriture ont été générés par l'IA, mais il est capable de le faire avec une confiance de 100 %. (Bien que le modèle prédise 100 %, nous arrondissons toujours à 99,9 % dans l'interface utilisateur pour signaler que nous ne pouvons jamais être sûrs à 100 %).

Vous pouvez voir les résultats complets ici.

Évaluation d'un échantillon plus large à l'aide de l'API Together

Nous avons créé un ensemble de test plus vaste comprenant environ 7 000 exemples à l'aide de nos schémas d'évaluation standard, en tirant parti de l'API Together pour l'inférence, couvrant un large éventail de domaines, notamment la rédaction académique, la rédaction créative, les questions-réponses, la rédaction scientifique, etc.

Voici nos résultats sur l'ensemble de test plus large.

ModèlePrécision
Llama 4 Scout100 % (3678/3678)
Llama 4 Maverick99,86 % (3656/3661)
Llama 4 Globalement99,93 % (7334/7339)

Conclusion

Pourquoi Pangram s'adapte-t-il si bien aux nouveaux modèles ? Nous pensons que c'est grâce à la qualité de nos ensembles de données sous-jacents et à notre approche d'apprentissage actif, ainsi qu'à nos stratégies d'incitation et d'échantillonnage étendues qui ont permis à Pangram de voir tellement de types d'écrits générés par l'IA qu'il s'adapte très bien aux nouveaux.

Pour plus d'informations sur nos recherches ou pour obtenir des crédits gratuits afin de tester notre modèle sur Llama 4, veuillez nous contacter à l'adresse info@pangram.com.

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.