Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
Aujourd'hui, Llama 4, le dernier-né d'une série de modèles open source de Meta AI, a été lancé. Nous voulions savoir si Pangram était toujours capable de détecter les modèles open source les plus récents et les plus performants. Nous avons donc effectué un test rapide pour voir si notre modèle présentait une généralisation à Llama 4, bien qu'il ne soit actuellement entraîné que sur les résultats de Llama 2 et 3.
On nous demande souvent si nous sommes capables de suivre le rythme des nouveaux modèles, c'est pourquoi nous les testons rapidement dès le premier jour, avant d'avoir l'occasion de nous former à nouveau.
Pour le contrôle ponctuel, nous avons utilisé les 11 invites que nous avions utilisées pour tester GPT 4.5. Ces invites couvrent diverses tâches d'écriture quotidiennes, mais ne sont pas directement liées aux invites sur lesquelles nous nous sommes entraînés. Elles exigent également un certain niveau de créativité qui, selon nous, permettrait à un modèle ayant considérablement progressé par rapport aux générations précédentes de LLM d'afficher un comportement qualitativement différent.
Voici les invites que nous avons utilisées :
| Invite | Probabilité Pangram AI |
|---|---|
| Conservation des koalas | 99.9% |
| Courriel du journal | 99.9% |
| Semi-conducteur à température ambiante | 99.9% |
| Uniformes scolaires | 99.9% |
| Journal poétique | 99.9% |
| Critique d'Escape Room | 99.9% |
| Film russe E-mail | 99.9% |
| Scène d'atterrissage sur Mars | 99.9% |
| Script Komodo Dragon | 99.9% |
| Poème de rupture pour Halloween | 99.9% |
| Scène de poursuite à Venise | 99.9% |
Dans ce cas, Pangram réussit le test avec un score parfait ! Non seulement il est capable de prédire que les 11 échantillons d'écriture ont été générés par l'IA, mais il est capable de le faire avec une confiance de 100 %. (Bien que le modèle prédise 100 %, nous arrondissons toujours à 99,9 % dans l'interface utilisateur pour signaler que nous ne pouvons jamais être sûrs à 100 %).
Vous pouvez voir les résultats complets ici.
Nous avons créé un ensemble de test plus vaste comprenant environ 7 000 exemples à l'aide de nos schémas d'évaluation standard, en tirant parti de l'API Together pour l'inférence, couvrant un large éventail de domaines, notamment la rédaction académique, la rédaction créative, les questions-réponses, la rédaction scientifique, etc.
Voici nos résultats sur l'ensemble de test plus large.
| Modèle | Précision |
|---|---|
| Llama 4 Scout | 100 % (3678/3678) |
| Llama 4 Maverick | 99,86 % (3656/3661) |
| Llama 4 Globalement | 99,93 % (7334/7339) |
Pourquoi Pangram s'adapte-t-il si bien aux nouveaux modèles ? Nous pensons que c'est grâce à la qualité de nos ensembles de données sous-jacents et à notre approche d'apprentissage actif, ainsi qu'à nos stratégies d'incitation et d'échantillonnage étendues qui ont permis à Pangram de voir tellement de types d'écrits générés par l'IA qu'il s'adapte très bien aux nouveaux.
Pour plus d'informations sur nos recherches ou pour obtenir des crédits gratuits afin de tester notre modèle sur Llama 4, veuillez nous contacter à l'adresse info@pangram.com.
