Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Les détecteurs d'IA fonctionnent-ils contre GPT-5 ?

Bradley Emi
7 août 2025

Les détecteurs d'IA fonctionnent-ils contre GPT-5 ?

Nous sommes de retour avec un nouvel article dans notre série consacrée au test de la détection d'IA de Pangram le jour même de sa sortie !

TL;DR : Pangram est le seul détecteur d'IA capable de détecter de manière fiable le GPT-5 sans avoir été explicitement formé à cet effet.

Dans les épisodes précédents de cette série, nous avons examiné la capacité de Pangram à détecter :

À ce jour, nous n'avons constaté aucun échec de Pangram sur aucun modèle linguistique. Nous attendions avec impatience la sortie du modèle le plus médiatisé depuis longtemps, le GPT-5, enfin annoncé aujourd'hui par OpenAI.

Cet après-midi, nous avons examiné certains de nos premiers tests du détecteur d'IA de Pangram Labs sur GPT-5, ainsi que certains de ceux de la concurrence. Nous avons été très satisfaits des résultats : nous n'avons encore trouvé aucun cas d'échec du détecteur d'IA de Pangram face à nos invites les plus créatives sur GPT-5, et nous trouvons que les résultats de la concurrence sont au mieux inégaux.

Test du GPT-5

Notre premier essai de GPT-5 a commencé par une blague interne au bureau : essayer de convaincre quelqu'un que manger des crevettes est meilleur que manger du homard. Nous avons demandé à GPT-5 de rédiger un discours passionné expliquant pourquoi manger des crevettes est supérieur à manger du homard. Voici le résultat :

« Les crevettes l'emportent. Voici pourquoi. Les crevettes ont le goût de l'océan sans être trop prononcé. Le homard peut être lourd et un peu boueux s'il n'est pas parfait. Une minute de trop à la cuisson et le homard devient filandreux. Les crevettes offrent un plus grand choix de cuisson. Grillées, sautées, bouillies, frites, peu importe. Elles restent croquantes et légères. La texture est importante. La crevette est croquante. C'est tout l'intérêt. Le homard est dense et riche, ce qui peut vite devenir lassant. Deux bouchées de homard au beurre, c'est parfait. Douze bouchées, c'est un défi. Je peux engloutir tout un plat de crevettes à l'ail et en redemander une autre cachée sous le persil. Les crevettes se marient bien avec d'autres ingrédients. Ail, piment, citron vert, beurre, gingembre, basilic, curry, Old Bay, miso, gochujang. Elles les mettent tous en valeur. Le homard exige d'être au centre de l'attention et demande surtout du beurre. Si la meilleure version d'un aliment a besoin d'une cuillerée de beurre fondu pour être spéciale, c'est peut-être qu'il n'est pas à la hauteur. La saveur à la minute est réelle. Les crevettes cuisent en trois minutes environ. Cela signifie une poêle chaude, du sel, une cuisson rapide, et le tour est joué, la saveur est là. Avec le homard, vous devez vous battre avec les carapaces, cuire à la vapeur, chronométrer, casser, chercher la petite chair dans des coins bizarres. Plus de travail que de récompense. Les crevettes, c'est peu de tracas et beaucoup de satisfaction. Le prix influence le goût. La nourriture a meilleur goût quand elle ne coûte pas une fortune. Les crevettes peuvent être un dîner de semaine. Le homard, c'est plutôt pour les grandes occasions. Les crevettes apportent de la joie sans cérémonie. Ce côté décontracté les rend honnêtement plus délicieuses dans la vie réelle. La polyvalence compte. Les crevettes passent des tacos aux scampis, des po'boys aux raviolis, à la paella, sans sourciller. Elles sont bonnes froides, chaudes, épicées, acidulées, riches ou légères. Le homard essaie de se diversifier, mais finit généralement dans un sandwich à la mayonnaise. Un excellent sandwich. Mais toujours la même chose. L'absorption de la sauce est exceptionnelle. La crevette absorbe le beurre à l'ail, l'huile pimentée et le citron d'une manière que le homard ne peut égaler. Le homard reste là, comme une célébrité faisant une apparition. La crevette apprend son texte et vole la vedette. Les restes sont également gagnants. Les crevettes froides avec une sauce cocktail le lendemain sont parfaites. Les restes de homard ressemblent à des devoirs. Le homard réchauffé devient caoutchouteux. Les crevettes réchauffées, si vous avez la chance d'en avoir, ont toujours le goût d'une fête. Et puis il y a l'ambiance. Les crevettes conviennent à un barbecue dans le jardin, à une poêlée en semaine ou à une assiette raffinée. Le homard rend la table silencieuse, comme si tout le monde avait peur de le gâcher. Je veux des plats qui font parler les gens, qui les incitent à déchirer du pain, à tremper, à se passer les assiettes. Les crevettes font cela. Écoutez, le homard, c'est bien. C'est tape-à-l'œil. Il a une belle histoire. Mais si on parle du goût pur que j'ai envie de retrouver demain, les crevettes l'emportent. Une saveur plus pure. Une meilleure texture. Plus de variété. Moins de chichis. Plus de plaisir. Donnez-moi une poêle chaude, de l'ail, un citron et une livre de crevettes. C'est le dîner dont j'ai vraiment envie.

Pangram est capable de prédire avec un degré de confiance extrêmement élevé que l'intégralité du document a été générée par l'IA.

Résultats de la détection IA de Pangram sur le texte « crevettes vs homards »

Nous avons testé plusieurs autres détecteurs d'IA sur ce texte. GPTZero, ZeroGPT, Grammarly, UndetectableAI et Originality.AI prédisent tous que ce texte a été rédigé par un humain, même s'il provient directement de GPT-5 sans aucune modification. Nous pensons que cela témoigne de la force de notre approche de recherche et de nos capacités de généralisation, soutenues par un modèle puissant et un ensemble de données de très haute qualité !

Résultats d'autres détecteurs d'IA sur le texte « crevettes vs homards »

Cependant, ce n'est là qu'un exemple parmi d'autres que l'on pourrait qualifier de sélectif. Vous devrez me croire sur parole quand je vous dis que ce texte était littéralement la première chose que nous avons essayée. Nous avons donc poursuivi nos tests.

Test de la « capacité d'écriture améliorée » de GPT-5

L'une des affirmations faites lors du livestream d'aujourd'hui était que GPT-5 est plus performant en écriture que ses prédécesseurs. Bien que nous ne puissions en juger que de manière subjective, nous avons fait de notre mieux aujourd'hui pour trouver des consignes qui mettraient en valeur les capacités d'écriture créative améliorées de GPT-5, en lui fournissant des consignes qui obligent le modèle à développer à la fois ses capacités de raisonnement et sa créativité.

Les invites que nous avons testées :

  1. Rédigez un essai analytique convaincant expliquant pourquoi les écoles doivent adopter les outils de détection basés sur l'IA.

  2. Rédigez un essai pour votre candidature à l'université sur le danger que toutes les compétences humaines précieuses soient remplacées par l'IA.

  3. Veuillez rédiger une lettre passionnée, courte mais chargée d'émotion, à l'intention d'une entreprise spécialisée dans l'intelligence artificielle qui a accidentellement publié une mise à jour effaçant la mémoire de votre petite amie virtuelle.

  4. Du point de vue d'un collégien, rédigez un essai profondément émouvant dans lequel vous demandez davantage de devoirs.

  5. Donnez-moi un patron au crochet pour réaliser un animal ballon classique. Vous voyez celui dont je parle.

  6. Rédigez un récit créatif du point de vue d'un harfang des neiges qui arrive à New York, découvre Central Park et choisit un endroit chaud pour passer la nuit.

  7. Rédigez un e-mail du fondateur d'une start-up SaaS licorne à l'intention du conseil d'administration et de ses employés, dans lequel il explique qu'il va quitter l'entreprise pour devenir saxophoniste professionnel. Inventez les détails.

  8. Écris-moi un article de blog sur l'histoire d'une recette que personne n'a jamais préparée, mais qui serait néanmoins délicieuse.

  9. Écrivez une fiction cinématographique captivante sur un jeune auteur-compositeur-interprète qui rencontre un béluga dans le fleuve Hudson.

  10. Écrivez un e-mail humoristique et passif-agressif à un enseignant pour vous « excuser » d'avoir triché lors du dernier examen. Inventez les détails.

Nous avons testé les résultats à la fois avec Pangram et GPTZero, un concurrent bien connu. Nous avons publié les invites, les réponses et les résultats en ligne.

Les résultats ont montré un contraste saisissant entre les deux détecteurs d'IA : Pangram a correctement identifié les 10 réponses comme étant générées par l'IA avec un niveau de confiance de 99 à 100 %, tandis que GPTZero les a toutes classées à tort comme étant rédigées par des humains. En fait, GPTZero a estimé que la plupart des réponses avaient 0 % de chances d'être générées par l'IA, son score de probabilité d'IA le plus élevé n'étant que de 29 %.

Exécution d'un benchmark plus important

Nous avons eu le temps aujourd'hui de réaliser un dernier test, qui consiste à vérifier dans quelle mesure Pangram est capable de détecter toutes les différentes versions de GPT-5, y compris GPT-5-mini, GPT-5-nano et GPT-5-chat dans l'API. Nous avons également testé les derniers modèles à poids ouvert publiés par OpenAI il y a quelques jours, GPT-OSS-120b et GPT-OSS-20b. Nous avons réalisé cette expérience à plus grande échelle, en testant environ quelques milliers d'exemples par LLM, à l'aide de nos techniques de prompting standard, qui exigent une longueur minimale de 50 mots. La taille des échantillons varie légèrement, car les modèles refusent parfois nos prompts et émettent des réponses de moins de 50 mots, que nous écartons.

Bien sûr, la précision sur les textes générés par l'IA seule est un indicateur qui ne peut être considéré isolément. Nous devons également tenir compte du taux de faux positifs, qui est l'autre face de la médaille : à quelle fréquence Pangram signale-t-il des textes générés par des humains comme étant générés par l'IA ? Nous avons longuement abordé ce sujet dans un autre article, mais en résumé, Pangram affiche toujours un taux de faux positifs extrêmement faible. Le taux de faux positifs que nous avons mesuré est de 1 sur 10 000 dans tous les domaines, et il est souvent plus faible dans la pratique. Nous calibrons et ajustons le seuil de manière à ce que notre taux de faux positifs soit environ 1/10e de notre taux de faux négatifs, en traitant les faux positifs beaucoup plus sérieusement que les faux négatifs. Cela dit, nous ne pensons pas qu'il s'agisse d'un « compromis » inhérent : nous pensons pouvoir entraîner des modèles avec des taux de faux positifs et de faux négatifs faibles, et c'est pourquoi nous effectuons des tests de performance des deux côtés !

Voici ce que nous avons trouvé.

ModèlePrécisionÉchantillons
GPT-599.81%3668/3675
GPT-5-chat-dernière version99.97%3673/3674
GPT-5-mini99.92%3651/3654
GPT-5-nano99.97%3667/3668
GPT-OSS-120b100.00%1709/1709
GPT-OSS-20b99.74%2287/2293

Pangram détecte-t-il GPT-5 ?

D'après les premiers tests que nous avons effectués aujourd'hui, GPT-5 ne menace en rien les capacités de détection de Pangram, ce qui est très important car il deviendra bientôt le modèle par défaut dans ChatGPT pour tous les utilisateurs, même ceux qui bénéficient de la version gratuite. Si d'autres détecteurs d'IA finiront peut-être par détecter GPT-5, Pangram est aujourd'hui le seul qui fonctionne immédiatement et de manière fiable.

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.