Annunciamo una nuova partnership con Proofig! Per saperne di più
Gli autori utilizzano i modelli di linguaggio grande (LLM) per scrivere articoli di ricerca sull'intelligenza artificiale? I revisori esternalizzano la stesura delle loro recensioni di questi articoli a strumenti di intelligenza artificiale generativa? Per scoprirlo, abbiamo analizzato tutti i 19.000 articoli e le 70.000 recensioni della Conferenza internazionale sulle rappresentazioni dell'apprendimento (ICLR), una delle più importanti e prestigiose sedi di pubblicazione di ricerche sull'intelligenza artificiale. Grazie a OpenReview e al processo di revisione pubblico dell'ICLR, tutti gli articoli e le relative recensioni sono stati resi disponibili online, e questo processo di revisione aperto ha reso possibile l'analisi.
Abbiamo reso pubblici tutti i risultati su iclr.pangram.com.
Beh, per prima cosa, ci è stata offerta una taglia!
Il tweet di Graham Neubig che offre una ricompensa per l'analisi delle candidature all'ICLR
In tutta serietà, molti autori e revisori dell'ICLR hanno notato alcuni casi di palese cattiva condotta scientifica legata all'intelligenza artificiale, come un articolo generato da un LLM con riferimenti completamente inventati e molti autori che affermano di aver ricevuto recensioni generate interamente dall'intelligenza artificiale.
Un autore ha persino riferito che un revisore ha posto 40 domande generate dall'intelligenza artificiale nella sua revisione tra pari!
Volevamo valutare la portata di questo problema nel suo complesso: questi esempi di comportamento scorretto sono casi isolati o sono indicativi di un fenomeno più ampio? Ecco perché abbiamo accettato l'offerta di Graham!
ICLR ha una politica molto chiara e descrittiva su ciò che è consentito e non consentito in termini di utilizzo di LLM sia nei documenti che nelle recensioni.
Politica 1. Qualsiasi utilizzo di un LLM deve essere reso pubblico, in conformità con le politiche del Codice Etico secondo cui "tutti i contributi alla ricerca devono essere riconosciuti" e i contributori "devono aspettarsi di ricevere il giusto riconoscimento per il loro lavoro".
Politica 2. Gli autori e i revisori dell'ICLR sono responsabili in ultima istanza dei propri contributi, in conformità con il Codice Etico che stabilisce che "i ricercatori non devono deliberatamente fornire affermazioni false o fuorvianti, inventare o falsificare dati, né travisare i risultati".
L'ICLR ha anche delle linee guida che gli autori dovrebbero seguire quando usano gli LLM nei loro articoli e recensioni. Per riassumere:
Pertanto, non conduciamo questo studio con l'intento di denunciare i singoli trasgressori, poiché gli LLM sono effettivamente consentiti sia nella presentazione degli articoli che nel processo di revisione tra pari. Desideriamo invece richiamare l'attenzione sulla quantità di utilizzo dell'IA negli articoli e nella revisione tra pari, e sottolineare che le revisioni generate interamente dall'IA (che, in effetti, potrebbero costituire una violazione del Codice Etico) sono un problema molto più diffuso di quanto molti credano.
Per prima cosa abbiamo scaricato tutti i PDF delle candidature all'ICLR utilizzando l'API OpenReview. Abbiamo anche scaricato tutte le note, che ci hanno permesso di estrarre la recensione.
Abbiamo scoperto che l'uso di un normale parser PDF come PyMuPDF era insufficiente per i documenti ICLR, poiché i numeri di riga, le immagini e le tabelle spesso non venivano gestiti correttamente. Pertanto, al fine di estrarre il testo principale dell'articolo, abbiamo utilizzato Mistral OCR per analizzare il testo principale dell'articolo dal PDF come Markdown. Poiché anche l'IA tende a preferire l'output Markdown, al fine di mitigare i falsi positivi derivanti dalla sola formattazione, abbiamo quindi riformattato il Markdown come testo semplice.
Abbiamo quindi eseguito il classificatore di testo esteso di Pangram sul testo semplice analizzato da questi PDF. La versione estesa del classificatore divide innanzitutto il testo in segmenti ed esegue il modello di rilevamento AI su ciascun segmento individualmente. Il risultato è una percentuale che mostra quanti segmenti sono risultati positivi per il testo generato dall'AI, quindi il risultato può indicare che un documento è interamente scritto da esseri umani, interamente generato dall'AI o misto, con alcuni segmenti che risultano positivi e altri negativi.
Abbiamo anche verificato le revisioni tra pari per l'IA utilizzando il nostro nuovo modello EditLens. EditLens è in grado non solo di rilevare la presenza dell'IA, ma anche di descrivere il grado di coinvolgimento dell'IA nel processo di editing. EditLens è in grado di prevedere che un testo rientri in una delle cinque categorie seguenti:
EditLens è attualmente disponibile solo per i clienti nella nostra versione beta privata, ma sarà disponibile al pubblico all'inizio di dicembre. Nei prossimi giorni forniremo ulteriori dettagli su questo modello, ma nella nostra ricerca preliminare ne descriviamo le prestazioni come all'avanguardia nella generazione di testi in co-autore e, sui benchmark interni, ha un'accuratezza simile al nostro modello attuale quando valutato come classificatore binario e un tasso di falsi positivi eccezionalmente basso di 1 su 10.000 su testi scritti interamente da esseri umani.
Nella nostra precedente analisi dei documenti della conferenza sull'intelligenza artificiale, abbiamo riscontrato che Pangram ha un tasso di falsi positivi pari allo 0% su tutti i documenti ICLR e NeurIPS disponibili pubblicati prima del 2022. Sebbene alcuni di questi documenti siano effettivamente presenti nel set di addestramento, non tutti lo sono; pertanto riteniamo che le prestazioni effettive di Pangram nel set di test siano in realtà molto vicine allo 0%.
E le revisioni tra pari? Abbiamo condotto un ulteriore esperimento di controllo negativo, in cui abbiamo applicato il nuovo modello EditLens a tutte le 2022 revisioni tra pari. Abbiamo riscontrato un tasso di errore di circa 1 su 1.000 nel confronto tra Lightly Edited e Fully Human, un tasso di errore di 1 su 5.000 nel confronto tra Medium Edited e Fully Human e un tasso di errore di 1 su 10.000 nel confronto tra Heavily Edited e Fully Human. Non abbiamo riscontrato alcuna confusione tra Fully AI-generated e Fully Human.
Distribuzione delle previsioni di EditLens sulle recensioni dell'ICLR 2022 (controllo negativo)
Per l'esperimento vero e proprio, abbiamo eseguito Pangram su tutti gli articoli e le revisioni tra pari. Ecco i principali risultati:
Abbiamo scoperto che il 21%, ovvero 15.899 recensioni, era stato generato interamente dall'intelligenza artificiale. Abbiamo scoperto che oltre la metà delle recensioni presentava una qualche forma di coinvolgimento dell'intelligenza artificiale, che si trattasse di editing, assistenza o generazione completa.
Distribuzione delle previsioni di EditLens sulle recensioni dell'ICLR 2026
I contributi cartacei, invece, sono ancora per lo più scritti da esseri umani (il 61% era scritto principalmente da esseri umani). Tuttavia, abbiamo trovato diverse centinaia di articoli generati interamente dall'IA, anche se sembrano essere casi eccezionali, e il 9% dei contributi presentava oltre il 50% di contenuto generato dall'IA. Va precisato che alcuni articoli generati interamente dall'IA erano già stati respinti e rimossi da OpenReview prima che avessimo la possibilità di eseguire l'analisi.
Distribuzione dei contenuti relativi all'intelligenza artificiale nei contributi presentati all'ICLR 2026
Abbiamo individuato alcune tendenze interessanti nei risultati che mettono in luce come l'IA venga utilizzata sia nella presentazione degli articoli che nelle revisioni tra pari, nonché quali siano gli effetti a valle di tale utilizzo sul processo di revisione stesso.
Contrariamente a uno studio precedente che dimostrava che i modelli di linguaggio large (LLM) spesso preferiscono i propri output alla scrittura umana quando vengono utilizzati come giudici, noi abbiamo riscontrato il contrario: più testo generato dall'intelligenza artificiale è presente in un contributo, peggiori sono le recensioni.
Punteggi medi delle recensioni per contenuto AI nei documenti
Ciò potrebbe essere dovuto a molteplici ragioni. Una di queste è che più l'IA viene utilizzata in un articolo, meno l'articolo è ben concepito ed eseguito nel suo complesso. È possibile che quando l'IA viene utilizzata nella scrittura scientifica, venga impiegata più spesso per alleggerire il carico di lavoro e prendere scorciatoie piuttosto che come ausilio aggiuntivo. Inoltre, il fatto che gli articoli generati interamente dall'IA ricevano punteggi più bassi indica potenzialmente che la ricerca generata dall'IA è ancora di bassa qualità e non rappresenta (ancora) un contributo reale alla scienza.
Punteggi medi delle recensioni in base al livello di coinvolgimento dell'IA
Abbiamo riscontrato che maggiore è la presenza dell'IA in una recensione, più alto è il punteggio. Questo è problematico: significa che, invece di riformulare la propria opinione utilizzando l'IA come cornice (se così fosse, ci aspetteremmo che il punteggio medio fosse lo stesso per le recensioni IA e quelle umane), i revisori stanno in realtà esternalizzando anche il giudizio dell'articolo all'IA. Rappresentare in modo errato l'opinione dell'LLM come l'opinione effettiva del revisore è una chiara violazione del Codice Etico. Sappiamo che l'IA tende ad essere adulatoria, il che significa che dice cose che le persone vogliono sentire e che sono piacevoli piuttosto che dare un'opinione imparziale: una proprietà completamente indesiderabile quando applicata alla revisione tra pari! Questo potrebbe spiegare il bias positivo nei punteggi delle recensioni dell'IA.
Lunghezza media delle recensioni in base al livello di coinvolgimento dell'IA
In passato, una recensione più lunga significava che era ben ponderata e di qualità superiore, ma nell'era degli LLM spesso può significare il contrario. Le recensioni generate dall'IA sono più lunghe e contengono molti "contenuti di riempimento". Secondo Shaib et. al., in un articolo di ricerca intitolato Measuring AI Slop in Text, una caratteristica dello "slop" dell'IA è la bassa densità di informazioni, il che significa che l'IA usa molte parole per dire molto poco in termini di contenuto effettivo.
Riteniamo che ciò sia vero anche nelle recensioni LLM: l'IA utilizza molte parole, ma in realtà non fornisce un feedback molto denso di informazioni. Riteniamo che ciò sia problematico perché gli autori devono perdere tempo ad analizzare una lunga recensione e a rispondere a domande vacue che in realtà non contengono feedback molto utili. Vale anche la pena ricordare che la maggior parte degli autori probabilmente chiederà a un modello linguistico di grandi dimensioni una recensione del proprio lavoro prima di inviarlo. In questi casi, il feedback di una recensione LLM è in gran parte ridondante e inutile, perché l'autore ha già visto le critiche ovvie che un LLM farà.
Sebbene il tasso di falsi positivi di Pangram sia estremamente basso, non è pari a zero, e pertanto abbiamo la responsabilità di quantificare l'affidabilità dello strumento prima di raccomandarlo per prendere decisioni discrete sul destino di un articolo (come una decisione di rifiuto a tavolino) o punire un revisore. Abbiamo misurato direttamente il tasso di falsi positivi nel dominio utilizzando gli studi di controllo negativo descritti sopra, ma cosa succede con altri set di dati, benchmark e testi generici?
Abbiamo documentato il tasso di falsi positivi di Pangram in questo precedente post sul blog.
L'accuratezza di Pangram è stata inoltre convalidata da diversi studi condotti da terzi, tra cui recenti ricerche dell'UChicago Booth e dell'American Association for Cancer Research.
Per contestualizzare questi numeri, il tasso di falsi positivi di Pangram è paragonabile al tasso di falsi positivi dei test del DNA o dei test antidroga: un vero falso positivo, in cui un testo generato interamente dall'intelligenza artificiale viene confuso con un testo scritto interamente da un essere umano, non è pari a zero, ma è estremamente raro.
Se sei un autore e sospetti di aver ricevuto una recensione generata dall'intelligenza artificiale, ci sono diversi segnali rivelatori che puoi cercare. Sebbene Pangram sia in grado di rilevare i testi generati dall'intelligenza artificiale, puoi anche individuare i segni delle recensioni AI a occhio nudo.
Abbiamo redatto una guida generale per individuare a occhio nudo i modelli di scrittura generati dall'intelligenza artificiale, ma abbiamo notato alcuni segnali e indicatori aggiuntivi presenti specificatamente nelle revisioni tra pari effettuate dall'intelligenza artificiale.
Alcuni degli "indizi" che notiamo nelle revisioni tra pari dell'IA:
Punti di forza: Chiara formulazione del problema: l'articolo affronta un problema reale: i sistemi OCR basati su VLM producono risultati distorti su documenti danneggiati senza segnalare l'incertezza, il che è peggiore dei sistemi OCR classici che producono risultati palesemente distorti. La motivazione è ben articolata. Metodologia sistematica: l'approccio di formazione in due fasi (avvio a freddo pseudo-etichettato + GRPO) è ragionevole e ben descritto. Il design della ricompensa multi-obiettivo con protezioni contro l'hacking della ricompensa (in particolare il fattore di smorzamento η per la discrepanza di lunghezza) dimostra un'attenta progettazione.
Domande: 1. Generalizzazione ai deterioramenti reali: gli autori possono valutare documenti deteriorati reali (ad esempio, set di dati di documenti storici) per dimostrare che l'approccio si generalizza oltre la specifica pipeline di deterioramento sintetico? 2. Confronto con i sistemi MinerU: MinerU e MinerU2.5 [2,3] rappresentano i recenti progressi nell'analisi dei documenti. Come si confronta il metodo proposto con questi sistemi su Blur-OCR? Se questi sistemi non sono in grado di produrre stime di incertezza, possono essere combinati con l'approccio di tagging proposto?
Critiche superficiali piuttosto che analisi autentiche: le recensioni generate dall'intelligenza artificiale tendono a concentrarsi su questioni superficiali piuttosto che su reali preoccupazioni relative all'integrità scientifica dell'articolo. Le critiche tipiche dell'intelligenza artificiale potrebbero includere la necessità di ulteriori ablazioni molto simili a quelle presentate, la richiesta di aumentare le dimensioni del set di test o il numero di controlli, oppure la richiesta di ulteriori chiarimenti o esempi.
Dire molte parole che dicono poco: le recensioni sull'IA spesso presentano una bassa densità di informazioni, utilizzando un linguaggio prolisso per esprimere concetti che potrebbero essere espressi in modo più conciso. Questa verbosità crea un lavoro extra per gli autori che devono analizzare recensioni lunghe per estrarre le critiche sostanziali effettive.
All'inizio di quest'anno, alcuni ricercatori dell'UNIST in Corea hanno pubblicato un documento programmatico in cui illustrano alcune delle ragioni del declino della qualità del processo di revisione tra pari. Con la continua crescita del settore dell'intelligenza artificiale, la pressione sulle risorse del sistema di revisione tra pari sta iniziando a mostrare i primi segni di cedimento. Il numero di revisori qualificati è semplicemente insufficiente a far fronte all'esplosivo aumento del numero di articoli.
Il problema principale dei documenti di scarsa qualità generati dall'intelligenza artificiale è che semplicemente sprecano tempo e risorse che sono limitate. Secondo la nostra analisi, i documenti generati dall'intelligenza artificiale non sono semplicemente all'altezza di quelli scritti da esseri umani e, cosa ancora più problematica, possono essere generati a basso costo da revisori disonesti e fabbriche di articoli scientifici che "spruzzano e pregano" (inviando un numero elevato di contributi a una conferenza nella speranza che uno di essi venga accettato per caso). Se si permette che i documenti generati dall'intelligenza artificiale invadano il sistema di revisione tra pari, la qualità della revisione continuerà a diminuire e i revisori saranno meno motivati dal dover leggere documenti di scarsa qualità invece di ricerche reali.
Comprendere perché le recensioni generate dall'intelligenza artificiale possono essere dannose è un po' più complesso. Concordiamo con l'ICLR sul fatto che l'IA può essere utilizzata in modo positivo come strumento di supporto per aiutare i revisori a esprimere meglio le loro idee, soprattutto quando l'inglese non è la loro lingua madre. Inoltre, l'IA può spesso fornire un feedback davvero utile ed è spesso produttivo per gli autori simulare il processo di revisione tra pari con gli LLM, in modo che questi ultimi possano criticare e mettere in discussione la ricerca, individuando errori e imprecisioni che l'autore potrebbe non aver notato in origine.
Tuttavia, la domanda rimane: se l'IA è in grado di generare feedback utili, perché dovremmo vietare le recensioni generate interamente dall'IA? L'economista dell'Università di Chicago Alex Imas articola la questione fondamentale in un recente tweet: la risposta dipende dal fatto che vogliamo che il giudizio umano sia coinvolto nella revisione scientifica tra pari.
Tweet di Alex Imas sulle recensioni generate dall'intelligenza artificiale
Se riteniamo che gli attuali modelli di IA siano sufficienti a sostituire completamente il giudizio umano, allora le conferenze dovrebbero semplicemente automatizzare l'intero processo di revisione, inserendo gli articoli in un LLM e assegnando automaticamente i punteggi. Ma se riteniamo che il giudizio umano debba rimanere parte del processo, allora i contenuti generati interamente dall'IA devono essere sanzionati. Imas identifica due problemi chiave: in primo luogo, un equilibrio di pooling in cui i contenuti generati dall'IA (più facili da produrre) sostituiranno rapidamente il giudizio umano nel giro di pochi cicli di revisione; in secondo luogo, un problema di verifica in cui determinare se una revisione dell'IA è effettivamente valida richiede lo stesso sforzo necessario per revisionare l'articolo da soli. Quindi, se gli LLM sono in grado di generare recensioni migliori di quelle umane, perché non automatizzare l'intero processo?
A mio parere, i giudizi umani sono complementari, ma forniscono un valore ortogonale alle recensioni dell'IA. Gli esseri umani spesso possono fornire un feedback fuori dalla distribuzione che potrebbe non essere immediatamente evidente. Le opinioni degli esperti sono più utili degli LLM perché sono plasmate dall'esperienza, dal contesto e da una prospettiva curata e affinata nel tempo. Gli LLM sono potenti, ma le loro recensioni spesso mancano di gusto e giudizio e quindi risultano "piatte".
Forse in futuro le conferenze potrebbero affiancare la revisione SOTA LLM alle revisioni umane, per garantire che queste ultime non si limitino a ribadire le critiche "ovvie" che possono essere evidenziate da un LLM.
L'aumento dei contenuti generati dall'intelligenza artificiale nella revisione accademica tra pari rappresenta una sfida cruciale per la comunità scientifica. La nostra analisi mostra che le revisioni tra pari interamente generate dall'intelligenza artificiale rappresentano una percentuale significativa del totale delle revisioni ICLR e che anche il numero di articoli generati dall'intelligenza artificiale è in aumento. Tuttavia, questi articoli generati dall'intelligenza artificiale sono più spesso approssimativi che autentici contributi alla ricerca.
Riteniamo che questa tendenza sia problematica e dannosa per la scienza e invitiamo le conferenze e gli editori ad adottare il rilevamento dell'IA come soluzione per scoraggiare gli abusi e preservare l'integrità scientifica.
