Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
Le marché de la détection de l'IA compte aujourd'hui plusieurs grands acteurs. Vous en avez peut-être déjà entendu parler : Pangram, GPTZero, Turnitin, ZeroGPT, etc.
Bon nombre de ces entreprises mettent régulièrement à jour leurs modèles et publient des chiffres sur leurs performances. Récemment, GPTZero a lancé une mise à jour estivale de ses modèles et publié de nouveaux chiffres sur leurs performances pour divers nouveaux modèles. Dans cet article, nous comparerons les performances du nouveau modèle de GPTZero avec celles de la détection IA de Pangram, y compris les derniers modèles GPT-5.
| Modèle | Taux de détection des pangrammes | Taux de détection de GPTZero | Meilleur détecteur |
|---|---|---|---|
| GPT-5 | 99.81% | 95.0% | Pangram |
| GPT-5-chat-dernière version | 99.97% | Non testé | Sans objet |
| GPT-5-mini | 99.92% | 92.2% | Pangram |
| GPT-5-nano | 99.97% | 96.1% | Pangram |
| GPT-OSS-120b | 100.00% | Non testé | Sans objet |
| GPT-OSS-20b | 99.74% | Non testé | Sans objet |
| GPT4.1 | 99.48% | 96.8% | Pangram |
| GPT4.1-mini | 99.94% | 98.7% | Pangram |
| o3 | 99.86% | 89.9% | Pangram |
| o3-mini | 100.00% | 98.4% | Pangram |
| Gemini 2.5 Pro | 99.91% | 95.7% | Pangram |
| Gemini 2.5 Flash | 99.75% | 98.2% | Pangram |
| Claude Sonnet 4 | 99.91% | 99.1% | Pangram |
Remarque : GPTZero ne rend pas publics ses ensembles de données d'évaluation internes, ces chiffres ne proviennent donc pas exactement des mêmes documents. De plus, GPTZero ne divulgue pas le nombre de documents sur lesquels il effectue ses tests, nous ne pouvons donc pas non plus comparer les quantités. Cependant, pour les chiffres de performance de Pangram, nous avons évalué des milliers de documents par modèle, ainsi qu'une grande variété de domaines et de schémas de prompt afin de simuler une utilisation réelle.
De plus, la précision de Pangram ne se limite pas à signaler la plupart des documents générés par l'IA. Pangram est également le leader du marché en matière de maintien de faibles taux de faux positifs. Il est pour nous primordial de ne pas signaler les documents rédigés par des humains comme étant générés par l'IA. Vous trouverez ci-dessous les différences entre les taux de faux positifs signalés pour Pangram et GPTZero :
| Pangram | GPTZero | |
|---|---|---|
| Taux de faux positifs (%) | 0.01% | 1% |
| Taux de faux positifs (n°) | ~1 document sur 10 000 | ~1 document sur 100 |
Taux de faux positifs de GPTZero Article de blog
Nous voyons ici les performances de GPTZero avec un taux de faux positifs (FPR) de 1 %.
Pangram et GPTZero se sont également affrontés dans des articles de recherche sur l'IA évalués par des pairs. Cela est parfaitement illustré dans la récente étude de l'université du Maryland intitulée « Les personnes qui utilisent fréquemment ChatGPT pour des tâches d'écriture sont capables de détecter avec précision et fiabilité les textes générés par l'IA ». Cette étude a examiné la capacité d'annotateurs humains experts à classer la différence entre les textes générés par l'homme et ceux générés par l'IA.
Dans le cadre de cette étude, les annotateurs humains ont été comparés à des détecteurs disponibles dans le commerce et open source. Pangram a obtenu de meilleurs résultats que chaque détecteur humain pris individuellement, ainsi que que toutes les alternatives commerciales, y compris GPTZero.
| GPT-4o | Claude | |
|---|---|---|
| Pangram | 100% | 100% |
| GPTZero | 100% | 97.6% |
| Annotateur 1 | 96.7% | 100% |
| Annotateur 2 | 96.7% | 100% |
| Annotateur 3 | 86.7% | 80% |
| Annotateur 4 | 90.0% | 96.7% |
| Annotateur 5 | 93.3% | 93.3% |
Les différences entre le modèle phare de Pangram et GPTZero ne s'arrêtent pas là. Les deux modèles sont « multilingues », ce qui signifie qu'ils sont capables de détecter l'IA dans plusieurs langues, et pas seulement en anglais. Pangram est multilingue dans les 20 langues les plus utilisées sur Internet. GPTZero prend en charge l'anglais, le français et l'espagnol. Voici les langues dans lesquelles chaque modèle est testé :
| Langue | Taux de faux positifs Pangram (FPR) | Taux de faux positifs (FPR) de GPTZero | Taux de détection de Pangram AI | Taux de détection de l'IA GPTZero |
|---|---|---|---|---|
| Espagnol | 0.00% | 5.6% | 100.0% | 96.4% |
| Français | 0.00% | 3.1% | 100.0% | 93.1% |
| Arabe | 0.10% | Non testé | 100.0% | Non testé |
| Tchèque | 0.00% | Non testé | 99.89% | Non testé |
| allemand | 0.00% | Non testé | 99.68% | Non testé |
| grec | 0.00% | Non testé | 99.79% | Non testé |
| persan | 0.00% | Non testé | 100.0% | Non testé |
| hindi | 0.00% | Non testé | 99.58% | Non testé |
| Hongrois | 0.10% | Non testé | 99.05% | Non testé |
| italien | 0.00% | Non testé | 100.0% | Non testé |
| japonais | 0.00% | Non testé | 100.0% | Non testé |
| néerlandais | 0.10% | Non testé | 100.0% | Non testé |
| Polonais | 0.00% | Non testé | 100.0% | Non testé |
| Portugais | 0.00% | Non testé | 100.0% | Non testé |
| roumain | 0.10% | Non testé | 100.0% | Non testé |
| Russe | 0.00% | Non testé | 100.0% | Non testé |
| Suédois | 0.00% | Non testé | 99.89% | Non testé |
| turc | 0.00% | Non testé | 99.79% | Non testé |
| Ukrainien | 0.00% | Non testé | 99.89% | Non testé |
| ourdou | 0.00% | Non testé | 98.84% | Non testé |
| Vietnamien | 0.00% | Non testé | 99.89% | Non testé |
| Chinois | 0.00% | Non testé | 99.89% | Non testé |
Pour plus d'informations sur les performances de Pangram sur les textes multilingues, consultez cet article de blog.
De plus, les deux modèles ont été entraînés en accordant une attention particulière aux performances ESL, car il existe une crainte largement répandue que les détecteurs d'IA puissent être biaisés à l'encontre des locuteurs non natifs de l'anglais. GPTZero et Pangram ont tous deux publié des résultats spécifiques aux textes ESL. Découvrez ci-dessous comment ils se classent :
| Taux de faux positifs | Taille de l'échantillon | |
|---|---|---|
| Pangram | 0.032% | 25,021 |
| GPTZero | 1.1% | 91 |
Pour en savoir plus sur l'approche de Pangram en matière de textes ESL, consultez cet article de blog : https://www.pangram.com/blog/how-accurate-is-pangram-ai-detection-on-esl
Une autre préoccupation pour ceux qui s'intéressent à la détection de l'IA concerne les performances sur les modèles non commercialisés. Alors que la guerre de l'IA continue de s'intensifier, les grands laboratoires d'IA et les petites start-ups lancent régulièrement des modèles importants. Il est important qu'une solution de détection de l'IA continue à fournir des résultats précis sur des modèles qu'elle n'a peut-être pas pu entraîner directement.
La sortie récente de GPT-5 a été l'occasion idéale pour le découvrir ! Quelques heures après la sortie du nouveau modèle, l'équipe Pangram a testé les performances de GPTZero et Pangram sur différents types de prompts. Voici les résultats obtenus :
| Pangram | GPTZero | |
|---|---|---|
| Document 1 | 100% | 2% |
| Document 2 | 100% | 0% |
| Document 3 | 100% | 0% |
| Document 4 | 100% | 0% |
| Document 5 | 100% | 9% |
| Document 6 | 99% | 0% |
| Document 7 | 100% | 0% |
| Document 8 | 100% | 0% |
| Document 9 | 100% | 29% |
| Document 10 | 100% | 0% |
| Document 11 | 100% | 10% |
Remarque : GPTZero a depuis publié une mise à jour du modèle qui prétend offrir de meilleures performances sur GPT-5 ! Pour plus de détails sur notre comparaison initiale, veuillez consulter cet article de blog. De plus, nous encourageons les utilisateurs à effectuer leurs propres tests afin de comparer les performances à tout moment.
Au final, Pangram reste le choix robuste et fiable pour détecter les contenus générés par l'IA. Que vos besoins concernent l'éducation, l'édition, la modération de contenu ou quelque chose d'encore plus spécifique, nous sommes là pour vous offrir une détection précise et équitable de l'IA. Pour en savoir plus, consultez notre blog ou contactez-nous à l'adresse info@pangram.com.
