Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

Pangram prévoit que 21 % des évaluations de l'ICLR seront générées par l'IA

Bradley Emi
18 novembre 2025

Les auteurs utilisent-ils des modèles linguistiques à grande échelle (LLM) pour rédiger leurs articles de recherche sur l'IA ? Les pairs évaluateurs externalisent-ils la rédaction de leurs évaluations de ces articles à des outils d'IA générative ? Afin de le découvrir, nous avons analysé l'ensemble des 19 000 articles et 70 000 évaluations de la Conférence internationale sur l'apprentissage des représentations (ICLR), l'un des lieux de publication les plus importants et les plus prestigieux dans le domaine de la recherche sur l'IA. Grâce à OpenReview et au processus d'évaluation publique de l'ICLR, tous les articles et leurs évaluations ont été rendus publics en ligne, et ce processus d'évaluation ouvert a permis cette analyse.

Nous avons rendu tous les résultats accessibles au public sur iclr.pangram.com.

Pourquoi étudier les soumissions à l'ICLR ?

Eh bien, pour commencer, on nous a offert une prime!

Tweet de Graham Neubig offrant une prime pour l'analyse des soumissions à l'ICLR

En toute sincérité, de nombreux auteurs et évaluateurs de l'ICLR ont remarqué certains cas flagrants de mauvaise conduite scientifique liée à l'IA, tels qu'un article généré par un LLM contenant des références complètement fantaisistes, et de nombreux auteurs affirmant avoir reçu des évaluations entièrement générées par l'IA.

Un auteur a même rapporté qu'un évaluateur avait posé 40 questions générées par l'IA dans le cadre de son évaluation par les pairs !

Nous voulions mesurer l'ampleur de ce problème dans son ensemble : ces exemples de mauvais comportement sont-ils des incidents isolés ou sont-ils révélateurs d'une tendance plus générale ? C'est pourquoi nous avons accepté l'offre de Graham !

L'IA est-elle autorisée dans les soumissions à l'ICLR et dans l'évaluation par les pairs ?

L'ICLR a une politique très claire et descriptive sur ce qui est autorisé et interdit en matière d'utilisation du LLM dans les articles et les critiques.

Politique 1. Toute utilisation d'un LLM doit être divulguée, conformément aux politiques du Code de déontologie qui stipulent que « toutes les contributions à la recherche doivent être reconnues » et que les contributeurs « doivent s'attendre à recevoir une reconnaissance pour leur travail ».

Politique 2. Les auteurs et les évaluateurs de l'ICLR sont responsables en dernier ressort de leurs contributions, conformément au code de déontologie qui stipule que « les chercheurs ne doivent pas délibérément faire des déclarations fausses ou trompeuses, fabriquer ou falsifier des données, ou présenter des résultats de manière inexacte ».

L'ICLR a également publié des lignes directrices que les auteurs doivent respecter lorsqu'ils utilisent des LLM dans leurs articles et leurs critiques. En résumé :

  • Les auteurs sont autorisés à utiliser les LLM pour les aider à rédiger leurs articles et comme assistants de recherche, mais ils doivent divulguer cette utilisation et sont responsables de l'intégrité scientifique de leur article.
  • Les auteurs sont autorisés à utiliser des LLM pour les aider à corriger l'orthographe et la grammaire dans leurs évaluations LLM, mais l'utilisation d'un LLM pour rédiger l'intégralité de l'évaluation constitue potentiellement une violation du code de déontologie, à la fois parce qu'elle revient à présenter une opinion/un point de vue externe sur l'article comme étant le leur, et parce qu'elle constitue une violation de la confidentialité.

Nous ne menons donc pas cette étude dans le but de dénoncer des contrevenants individuels, car les LLM sont en réalité autorisés tant dans le processus de soumission des articles que dans celui d'évaluation par les pairs. Nous souhaitons plutôt attirer l'attention sur l'ampleur de l'utilisation de l'IA dans les articles et l'évaluation par les pairs, et souligner que les évaluations entièrement générées par l'IA (qui, en effet, sont susceptibles de constituer des violations du code de déontologie) sont un problème beaucoup plus répandu que beaucoup ne le pensent.

Méthodologie

Nous avons d'abord téléchargé tous les fichiers PDF des soumissions à l'ICLR à l'aide de l'API OpenReview. Nous avons également téléchargé toutes les notes, ce qui nous a permis d'extraire les commentaires.

Nous avons constaté que l'utilisation d'un analyseur PDF classique tel que PyMuPDF était insuffisante pour les articles de l'ICLR, car les numéros de ligne, les images et les tableaux n'étaient souvent pas traités correctement. Par conséquent, afin d'extraire le texte principal de l'article, nous avons utilisé Mistral OCR pour analyser le texte principal de l'article à partir du PDF sous forme de Markdown. Comme l'IA a également tendance à préférer les sorties Markdown, afin d'atténuer les faux positifs provenant uniquement du formatage, nous avons ensuite reformaté le Markdown en texte brut.

Nous avons ensuite exécuté le classificateur de texte étendu de Pangram sur le texte brut analysé à partir de ces PDF. La version étendue du classificateur divise d'abord le texte en segments, puis exécute le modèle de détection IA sur chaque segment individuellement. Le résultat est un pourcentage indiquant combien de segments ont été identifiés comme du texte généré par IA. Le résultat peut donc indiquer qu'un document est entièrement rédigé par un humain, entièrement généré par IA, ou mixte, certains segments étant identifiés comme positifs et d'autres comme négatifs.

Nous avons également vérifié les évaluations par les pairs pour l'IA à l'aide de notre nouveau modèle EditLens. EditLens est capable non seulement de détecter la présence de l'IA, mais aussi de décrire le degré d'implication de l'IA dans le processus d'édition. EditLens peut prédire qu'un texte appartient à l'une des cinq catégories suivantes :

  • Entièrement rédigé par des humains
  • Légèrement modifié par l'IA ou assisté par l'IA
  • Édité ou assisté par l'IA de niveau moyen
  • Fortement édité ou assisté par l'IA
  • Entièrement généré par l'IA

EditLens n'est actuellement disponible que pour les clients de notre version bêta privée, mais sera accessible au grand public début décembre. Nous en dirons plus sur ce modèle dans les semaines à venir, mais dans notre prépublication, nous décrivons ses performances comme étant à la pointe de la technologie en matière de génération de textes co-écrits. D'après nos benchmarks internes, il présente une précision similaire à celle de notre modèle actuel lorsqu'il est évalué en tant que classificateur binaire, et un taux de faux positifs exceptionnellement bas de 1 sur 10 000 sur des textes entièrement rédigés par des humains.

Résultats

Dans notre précédente analyse des articles présentés lors de conférences sur l'IA, nous avons constaté que Pangram affichait un taux de faux positifs de 0 % sur tous les articles ICLR et NeurIPS publiés avant 2022. Si certains de ces articles font effectivement partie de l'ensemble d'apprentissage, ce n'est pas le cas de tous ; nous pensons donc que les performances réelles de Pangram sur l'ensemble de test sont en réalité très proches de 0 %.

Qu'en est-il des évaluations par les pairs ? Nous avons mené une expérience de contrôle négatif supplémentaire, dans laquelle nous avons appliqué le nouveau modèle EditLens à l'ensemble des 2022 évaluations par les pairs. Nous avons constaté un taux d'erreur d'environ 1 sur 1 000 pour les évaluations « légèrement modifiées » par rapport aux évaluations « entièrement humaines », un taux d'erreur de 1 sur 5 000 pour les évaluations « moyennement modifiées » par rapport aux évaluations « entièrement humaines », et un taux d'erreur de 1 sur 10 000 pour les évaluations « fortement modifiées » par rapport aux évaluations « entièrement humaines ». Nous n'avons constaté aucune confusion entre les évaluations « entièrement générées par l'IA » et les évaluations « entièrement humaines ».

Répartition des prédictions d'EditLens sur les évaluations de l'ICLR 2022 (contrôle négatif)

Pour l'expérience elle-même, nous avons utilisé Pangram sur tous les articles et toutes les évaluations par les pairs. Voici les principales conclusions :

Nous avons constaté que 21 %, soit 15 899 avis, avaient été entièrement générés par l'IA. Nous avons constaté que plus de la moitié des avis avaient bénéficié d'une forme d'intervention de l'IA, qu'il s'agisse d'une modification, d'une assistance ou d'une génération complète par l'IA.

Répartition des prédictions d'EditLens sur les évaluations de l'ICLR 2026

Les articles soumis, en revanche, sont encore majoritairement rédigés par des humains (61 % étaient principalement rédigés par des humains). Cependant, nous avons trouvé plusieurs centaines d'articles entièrement générés par l'IA, même s'ils semblent être des cas particuliers, et 9 % des soumissions comportaient plus de 50 % de contenu généré par l'IA. Il convient toutefois de noter que certains articles entièrement générés par l'IA avaient déjà été rejetés et supprimés d'OpenReview avant que nous ayons eu l'occasion d'effectuer l'analyse.

Répartition du contenu lié à l'IA dans les articles soumis à l'ICLR 2026

Analyse

Nous avons relevé certaines tendances intéressantes dans les résultats qui mettent en lumière la manière dont l'IA est utilisée tant dans la soumission des articles que dans les évaluations par les pairs, ainsi que les effets en aval de cette utilisation sur le processus d'évaluation lui-même.

L'utilisation de l'IA dans les articles est corrélée à une baisse du nombre de critiques.

Contrairement à une étude précédente qui montrait que les LLM préfèrent souvent leurs propres productions à celles des humains lorsqu'ils sont utilisés comme juges, nous constatons le contraire : plus un texte contient de texte généré par l'IA, plus les évaluations sont mauvaises.

Notes moyennes attribuées au contenu généré par l'IA dans les articles

Cela peut s'expliquer par plusieurs raisons. L'une d'entre elles est que plus l'IA est utilisée dans un article, moins celui-ci est bien pensé et rédigé dans son ensemble. Il est possible que lorsque l'IA est utilisée dans la rédaction scientifique, elle serve plus souvent à décharger et à prendre des raccourcis qu'à apporter une aide supplémentaire. De plus, le fait que les articles entièrement générés par l'IA obtiennent des notes plus faibles indique potentiellement que la recherche générée par l'IA est encore de mauvaise qualité et ne constitue pas (encore) une véritable contribution à la science.

Les avis sur l'IA obtiennent des notes plus élevées

Notes moyennes attribuées en fonction du niveau d'implication de l'IA

Nous constatons que plus l'IA est présente dans une évaluation, plus la note est élevée. Cela pose problème : cela signifie qu'au lieu de reformuler leur propre opinion à l'aide de l'IA (si tel était le cas, nous nous attendrions à ce que la note moyenne soit la même pour les évaluations réalisées par l'IA et celles réalisées par des humains), les évaluateurs externalisent également leur jugement sur l'article à l'IA. Présenter l'opinion du LLM comme l'opinion réelle du réviseur constitue une violation flagrante du code de déontologie. Nous savons que l'IA a tendance à être flagorneuse, ce qui signifie qu'elle dit des choses que les gens veulent entendre et qui leur plaisent plutôt que de donner une opinion impartiale : une propriété tout à fait indésirable lorsqu'elle est appliquée à l'évaluation par les pairs ! Cela pourrait expliquer le biais positif des notes attribuées par l'IA.

Les avis sur l'IA sont plus longs

Longueur moyenne des avis en fonction du niveau d'implication de l'IA

Auparavant, une critique plus longue signifiait qu'elle était bien pensée et de meilleure qualité, mais à l'ère des LLM, cela peut souvent signifier le contraire. Les critiques générées par l'IA sont plus longues et contiennent beaucoup de « contenu de remplissage ». Selon Shaib et al., dans un article de recherche intitulé « Measuring AI Slop in Text », l'une des caractéristiques du « slop » de l'IA est sa faible densité d'informations, ce qui signifie que l'IA utilise beaucoup de mots pour dire très peu de choses en termes de contenu réel.

Nous constatons que cela vaut également pour les évaluations LLM : l'IA utilise beaucoup de mots, mais ne fournit pas réellement de commentaires très riches en informations. Nous estimons que cela pose problème, car les auteurs doivent perdre du temps à analyser une longue critique et à répondre à des questions vides de sens qui ne contiennent en réalité que peu de commentaires utiles. Il convient également de mentionner que la plupart des auteurs demanderont probablement à un modèle linguistique de grande taille d'examiner leur soumission avant de la soumettre. Dans ces cas, les commentaires d'une critique LLM sont en grande partie redondants et inutiles, car l'auteur a déjà pris connaissance des critiques évidentes que formulera un LLM.

Y a-t-il de fausses accusations ?

Bien que le taux de faux positifs de Pangram soit extrêmement faible, il n'est pas nul, et nous avons donc la responsabilité de quantifier la fiabilité de l'outil avant de le recommander pour prendre des décisions discrétionnaires sur le sort d'un article (comme une décision de rejet immédiat) ou pour sanctionner un pair évaluateur. Nous avons mesuré directement le taux de faux positifs dans le domaine à l'aide des études de contrôle négatif décrites ci-dessus, mais qu'en est-il des autres ensembles de données, des benchmarks et des textes généraux ?

Nous avons documenté le taux de faux positifs de Pangram dans cet article de blog précédent.

  • Le taux global de faux positifs de Pangram est de 1 sur 10 000 sur les documents du jeu de test.
  • Le taux de faux positifs de Pangram sur les articles scientifiques conservés par ArXiV est de 1 sur 100 000.
  • Le taux de faux positifs de Pangram sur les articles médicaux retenus de PubMed est de 0 (avec une confiance à 3 décimales).

La précision de Pangram a également été validée par plusieurs études indépendantes, notamment des études récentes menées par l'UChicago Booth et l'American Association for Cancer Research.

Pour replacer ces chiffres dans leur contexte, le taux de faux positifs de Pangram est comparable à celui des tests ADN ou des tests de dépistage de drogues : un véritable faux positif, où un texte entièrement généré par l'IA est confondu avec un texte entièrement humain, n'est pas nul, mais extrêmement rare.

Comment savoir si vous avez reçu une évaluation par les pairs effectuée par une IA ?

Si vous êtes un auteur et que vous soupçonnez avoir reçu une critique générée par une IA, plusieurs indices peuvent vous mettre la puce à l'oreille. Pangram est capable de détecter les textes générés par une IA, mais vous pouvez également repérer les signes d'une critique générée par une IA à l'œil nu.

Nous avons élaboré un guide général permettant de détecter à l'œil nu les schémas d'écriture générés par l'IA, mais nous avons remarqué certains signaux et marqueurs supplémentaires présents spécifiquement dans les évaluations par les pairs effectuées par l'IA.

Voici quelques-uns des « indices » que nous remarquons dans les évaluations par les pairs en IA :

  • Styles d'en-tête : les évaluations par les pairs générées par l'IA aiment créer des en-têtes de section en gras avec des balises de résumé de 2 à 3 mots suivies d'un deux-points. Par exemple :

Points forts : Formulation claire du problème: l'article aborde un problème réel : les systèmes OCR basés sur le VLM hallucinent sur les documents dégradés sans signaler d'incertitude, ce qui est pire que les systèmes OCR classiques qui produisent des résultats manifestement brouillés. La motivation est bien articulée. Méthodologie systématique: l'approche de formation en deux étapes (démarrage à froid pseudo-étiqueté + GRPO) est raisonnable et bien décrite. La conception de la récompense multi-objectifs avec des mesures de protection contre le piratage des récompenses (en particulier le facteur d'atténuation η en cas de longueur incompatible) témoigne d'une ingénierie minutieuse.

Questions : 1. Généralisation aux dégradations réelles: les auteurs peuvent-ils évaluer des documents dégradés réels (par exemple, des ensembles de données de documents historiques) afin de démontrer que l'approche se généralise au-delà du pipeline de dégradation synthétique spécifique ? 2. Comparaison avec les systèmes MinerU: MinerU et MinerU2.5 [2,3] représentent les avancées récentes en matière d'analyse syntaxique de documents. Comment la méthode proposée se compare-t-elle à ces systèmes sur Blur-OCR ? Si ces systèmes ne peuvent pas produire d'estimations d'incertitude, peuvent-ils être combinés avec l'approche de balisage proposée ?

  • Critiques superficielles plutôt qu'analyse authentique : les évaluations générées par l'IA ont tendance à se concentrer sur des questions superficielles plutôt que sur de réelles préoccupations concernant l'intégrité scientifique de l'article. Les critiques typiques de l'IA peuvent inclure la nécessité d'ablations supplémentaires très similaires à celles présentées, une augmentation demandée de la taille de l'ensemble de test ou du nombre de contrôles, ou une demande de clarifications ou d'exemples supplémentaires.

  • Beaucoup de mots pour dire peu de choses : les critiques d'IA présentent souvent une faible densité d'informations, utilisant un langage verbeux pour exprimer des idées qui pourraient être formulées de manière plus concise. Cette verbosité crée un surcroît de travail pour les auteurs qui doivent analyser de longues critiques pour en extraire les critiques substantielles.

Pourquoi les articles sur l'IA et les évaluations par les pairs dans le domaine de l'IA nuisent-ils au processus scientifique ?

Au début de l'année, des chercheurs de l'UNIST en Corée ont publié un document de synthèse dans lequel ils exposent certaines des raisons expliquant la baisse de qualité du processus d'évaluation par les pairs. À mesure que l'IA continue de se développer, les contraintes pesant sur les ressources du système d'évaluation par les pairs commencent à se faire sentir. Le nombre de réviseurs qualifiés est tout simplement insuffisant pour faire face à l'augmentation explosive du nombre d'articles.

Le plus gros problème avec les articles de mauvaise qualité générés par l'IA est qu'ils constituent tout simplement un gaspillage de temps et de ressources déjà limités. D'après notre analyse, les articles générés par l'IA ne sont tout simplement pas aussi bons que ceux rédigés par des humains. Plus problématique encore, ils peuvent être générés à moindre coût par des évaluateurs malhonnêtes et des usines à articles qui « pulvérisent et prient » (soumettent un grand nombre d'articles à une conférence dans l'espoir que l'un d'entre eux soit accepté par hasard). Si les articles générés par l'IA sont autorisés à envahir le système d'évaluation par les pairs, la qualité de l'évaluation continuera de baisser et les évaluateurs seront moins motivés, car ils devront lire des articles de mauvaise qualité au lieu de véritables travaux de recherche.

Comprendre pourquoi les évaluations générées par l'IA peuvent être nuisibles est un peu plus nuancé. Nous sommes d'accord avec l'ICLR sur le fait que l'IA peut être utilisée de manière positive comme aide pour aider les évaluateurs à mieux articuler leurs idées, en particulier lorsque l'anglais n'est pas leur langue maternelle. De plus, l'IA peut souvent fournir des commentaires vraiment utiles, et il est souvent productif pour les auteurs de simuler le processus d'évaluation par les pairs avec des LLM, afin que ceux-ci critiquent et pointent les failles de la recherche, et détectent les erreurs et les fautes que l'auteur n'aurait peut-être pas remarquées à l'origine.

Cependant, la question demeure : si l'IA peut générer des commentaires utiles, pourquoi devrions-nous interdire les évaluations entièrement générées par l'IA ? L'économiste Alex Imas, de l'université de Chicago, expose clairement le cœur du problème dans un tweet récent: la réponse dépend de notre volonté d'impliquer le jugement humain dans l'évaluation scientifique par les pairs.

Tweet d'Alex Imas sur les avis générés par l'IA

Si nous pensons que les modèles d'IA actuels sont suffisants pour remplacer entièrement le jugement humain, alors les conférences devraient simplement automatiser l'ensemble du processus d'évaluation : soumettre les articles à un LLM et attribuer automatiquement des notes. Mais si nous pensons que le jugement humain doit rester une partie intégrante du processus, alors le contenu entièrement généré par l'IA doit être sanctionné. Imas identifie deux problèmes clés : premièrement, un équilibre de mise en commun où le contenu généré par l'IA (plus facile à produire) évincera rapidement le jugement humain en quelques cycles d'évaluation ; et deuxièmement, un problème de vérification où déterminer si une évaluation par l'IA est réellement bonne nécessite le même effort que d'évaluer soi-même l'article. Ainsi, si les LLM peuvent générer de meilleures évaluations que les humains, pourquoi ne pas automatiser l'ensemble du processus ?

À mon avis, les jugements humains sont complémentaires, mais apportent une valeur orthogonale aux évaluations de l'IA. Les humains peuvent souvent fournir des commentaires hors distribution qui ne sont pas immédiatement évidents. Les avis d'experts sont plus utiles que les LLM, car leurs opinions sont façonnées par l'expérience, le contexte et une perspective qui s'affine et se peaufine au fil du temps. Les LLM sont puissants, mais leurs évaluations manquent souvent de goût et de jugement, et semblent donc « plates ».

Peut-être que les conférences futures pourraient présenter les évaluations SOTA LLM à côté des évaluations humaines afin de s'assurer que ces dernières ne se contentent pas de répéter les critiques « évidentes » qui peuvent être soulevées par un LLM.

Conclusion

L'essor des contenus générés par l'IA dans le cadre de l'évaluation par les pairs représente un défi majeur pour la communauté scientifique. Notre analyse montre que les évaluations par les pairs entièrement générées par l'IA représentent une part importante de l'ensemble des évaluations de l'ICLR, et que le nombre d'articles générés par l'IA est également en augmentation. Cependant, ces articles générés par l'IA sont plus souvent des travaux bâclés que de véritables contributions à la recherche.

Nous estimons que cette tendance est problématique et nuisible pour la science, et nous appelons les conférences et les éditeurs à adopter la détection par IA comme solution pour dissuader les abus et préserver l'intégrité scientifique.

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.