Annunciamo una nuova partnership con Proofig! Per saperne di più

I documenti delle conferenze sull'intelligenza artificiale sono sempre più spesso redatti dall'intelligenza artificiale: +370% dal 2023

Bradley Emi
30 settembre 2024

Un grafico che illustra la percentuale di abstract generati dall'intelligenza artificiale inviati all'ICLR per anno, rivelando una tendenza al rialzo dal 2023.

Nel febbraio 2024, un articolo pubblicato su Frontiers in Cell and Developmental Biology presentava immagini chiaramente generate dall'intelligenza artificiale. Questo articolo in particolare ha fatto notizia perché una delle immagini mostrava un ratto con testicoli assurdamente grandi e un testo senza senso che non aveva assolutamente alcun significato.

Sebbene la revisione tra pari (in teoria) dovrebbe essere sufficiente per individuare casi evidenti come questo, cosa succede quando il contenuto effettivo dell'articolo è generato dall'intelligenza artificiale? Anche gli esperti hanno difficoltà a distinguere le ricerche generate dall'intelligenza artificiale da quelle scritte da esseri umani.

Un recente articolo pubblicato su Nature sottolinea la crescente preoccupazione riguardo ai contenuti generati dall'intelligenza artificiale negli articoli accademici. L'articolo discute uno studio in cui alcuni scienziati informatici hanno utilizzato Claude 3.5, uno dei più recenti LLM, per generare idee di ricerca e scrivere articoli, che sono stati poi presentati a revisori scientifici. Questi ultimi hanno quindi valutato gli articoli in base a "novità, interesse, fattibilità ed efficacia prevista". In media, è emerso che i revisori hanno assegnato agli articoli generati dall'intelligenza artificiale un punteggio più alto rispetto a quelli scritti da esseri umani! Ciò porta alla domanda: l'IA è davvero in grado di elaborare idee di ricerca migliori rispetto agli esseri umani? Sebbene si sia tentati di credere che sia così, dei 4.000 articoli generati dall'IA studiati dai ricercatori, solo 200 (il 5%) contenevano effettivamente idee originali: la maggior parte degli articoli si limitava a riproporre idee già esistenti nel set di addestramento dell'LLM.

In definitiva, la ricerca generata dall'IA danneggia la comunità aggiungendo rumore e riducendo il segnale nel processo di revisione tra pari, per non parlare dello spreco di tempo e fatica dei revisori che si preoccupano di mantenere gli standard della ricerca. Inoltre, ciò che è ancora peggio è che la ricerca generata dall'IA spesso sembra convincente, ma in realtà il testo prodotto da un modello linguistico sembra solo fluente e può essere pieno di errori, allucinazioni e incongruenze logiche. La preoccupazione in questo caso è che anche i revisori esperti spesso non sono in grado di capire quando ciò che stanno leggendo è un'allucinazione dell'LLM.

Gli organizzatori delle principali conferenze sul machine learning concordano con noi: non c'è posto per i testi generati da LLM nella scrittura scientifica. La politica ufficiale dell'ICML (International Conference on Machine Learning) è la seguente:

Chiarimenti sulla politica relativa ai modelli linguistici di grandi dimensioni

Noi (i presidenti del programma) abbiamo incluso la seguente dichiarazione nella Call for Papers per l'ICML rappresentata dal 2023:

I documenti che includono testo generato da un modello linguistico su larga scala (LLM) come ChatGPT sono vietati, a meno che il testo prodotto non sia presentato come parte dell'analisi sperimentale del documento.

Questa dichiarazione ha sollevato una serie di domande da parte di potenziali autori e ha spinto alcuni di loro a contattarci in modo proattivo. Apprezziamo i vostri feedback e commenti e vorremmo chiarire ulteriormente l'intenzione alla base di questa dichiarazione e come intendiamo attuare questa politica per l'ICML 2023.

TLDR;

La politica relativa ai modelli linguistici di grandi dimensioni (LLM) per l'ICML 2023 vieta l'uso di testi prodotti interamente da LLM (ovvero "generati"). Ciò non impedisce agli autori di utilizzare gli LLM per modificare o perfezionare i testi scritti dagli autori stessi. La politica relativa agli LLM si basa in gran parte sul principio della cautela nel proteggersi da potenziali problemi legati all'uso degli LLM, tra cui il plagio.

Nonostante questo avvertimento, abbiamo riscontrato che un numero significativo e crescente di autori nel campo dell'apprendimento automatico sta violando la politica e utilizzando comunque l'IA per generare testi nei propri articoli.

Misurare la portata del problema

Noi di Pangram abbiamo voluto misurare la portata di questo problema nel nostro campo: l'intelligenza artificiale. Abbiamo cercato di rispondere alla domanda: i ricercatori di IA utilizzano ChatGPT per scrivere le loro ricerche?

Per studiare questo problema, abbiamo utilizzato l'API OpenReview per estrarre i contributi presentati dal 2018 al 2024 a due delle più grandi conferenze sull'intelligenza artificiale: ICLR e NeurIPS.

Abbiamo quindi eseguito il rilevatore di IA di Pangram su tutti gli abstract presentati a queste conferenze. Ecco i nostri risultati:

ICLR

Un grafico che illustra la percentuale di abstract generati dall'intelligenza artificiale inviati all'ICLR per anno, rivelando una tendenza al rialzo dal 2023.

NeurIPS

Un grafico che illustra la percentuale di abstract generati dall'intelligenza artificiale inviati a Neurips per anno, rivelando una tendenza al rialzo dal 2023.

I risultati

Possiamo considerare tutto ciò che è precedente al 2022 come un insieme di validazione del tasso di falsi positivi del nostro modello, poiché all'epoca non esistevano modelli linguistici di grandi dimensioni. Come mostrato nelle figure, prevediamo che ogni singolo abstract di conferenza del 2022 o precedente sarà previsto dal nostro modello come scritto da un essere umano. Ciò dovrebbe ispirare fiducia nell'accuratezza del nostro modello: il nostro tasso di falsi positivi è molto buono sugli abstract scientifici, quindi possiamo essere certi che ogni previsione positiva fatta nel 2023 e nel 2024 sia un vero positivo.

Quello che vediamo da allora è molto preoccupante. Ci sono stati 3 cicli di conferenze da quando ChatGPT è stato lanciato nel novembre 2022.

Il primo ciclo è avvenuto proprio in concomitanza con il lancio di ChatGPT (ICLR 2023). Il termine ultimo per l'invio era in realtà precedente al lancio di ChatGPT, ma gli autori hanno avuto la possibilità di apportare modifiche prima della conferenza stessa, che si è tenuta un paio di mesi dopo il lancio di ChatGPT. Quello che abbiamo riscontrato è prevedibile: solo una manciata di abstract sono stati scritti dall'IA (in questo ciclo ne abbiamo trovati solo 2 su diverse migliaia) e sono stati probabilmente modificati dopo la scadenza.

Il secondo ciclo è avvenuto circa sei mesi dopo, NeuRIPS 2023, con scadenza nell'estate del 2023 per una conferenza prevista a dicembre. In questa conferenza, abbiamo riferito che circa l'1,3% degli abstract inviati era stato generato dall'intelligenza artificiale: una percentuale piccola ma significativa.

Infine, nell'ultimo ciclo, ICLR 2024, che si è svolto pochi mesi fa, abbiamo notato un aumento fino al 4,9%: una crescita quasi quadruplicata rispetto alle recensioni generate dall'IA di NeuRIPS 2023!

Questi risultati mettono in luce una tendenza preoccupante: non solo il numero di articoli scientifici generati dall'intelligenza artificiale presentati alle principali conferenze sull'IA è in aumento, ma tale numero sta crescendo a un ritmo sempre più rapido: in altre parole, il ritmo con cui vengono presentati articoli generati dall'IA sta accelerando.

Come sono gli abstract generati dall'intelligenza artificiale?

Dai un'occhiata ad alcuni di questi abstract e valuta tu stesso se ti sembrano simili al tipo di testo che sei abituato a leggere nella letteratura scientifica tecnica:

  1. Nel complesso panorama dei dati in rete, comprendere gli effetti causali degli interventi è una sfida fondamentale con implicazioni in vari ambiti. Le reti neurali grafiche (GNN) si sono affermate come uno strumento potente per catturare dipendenze complesse, ma il potenziale del deep learning geometrico per l'inferenza causale delle reti basate su GNN rimane poco esplorato. Questo lavoro offre tre contributi chiave per colmare questa lacuna. In primo luogo, stabiliamo una connessione teorica tra la curvatura dei grafi e l'inferenza causale, rivelando che le curvature negative pongono delle sfide nell'identificazione degli effetti causali. In secondo luogo, sulla base di questa intuizione teorica, presentiamo i risultati computazionali che utilizzano la curvatura di Ricci per prevedere l'affidabilità delle stime degli effetti causali, dimostrando empiricamente che le regioni di curvatura positiva producono stime più accurate. Infine, proponiamo un metodo che utilizza il flusso di Ricci per migliorare la stima dell'effetto del trattamento sui dati in rete, mostrando prestazioni superiori grazie alla riduzione dell'errore attraverso l'appiattimento dei bordi nella rete. I nostri risultati aprono nuove strade per sfruttare la geometria nella stima degli effetti causali, offrendo intuizioni e strumenti che migliorano le prestazioni delle GNN nei compiti di inferenza causale.

  2. Nel campo dei modelli linguistici, la codifica dei dati è fondamentale, poiché influenza l'efficienza e l'efficacia dell'addestramento dei modelli. Il Byte Pair Encoding (BPE) è una tecnica di tokenizzazione delle sottoparole consolidata che bilancia l'efficienza computazionale e l'espressività linguistica unendo coppie di byte o caratteri frequenti. Poiché l'addestramento dei modelli linguistici richiede notevoli risorse computazionali, proponiamo Fusion Token, un metodo che migliora sostanzialmente l'approccio convenzionale del Byte Pair Encoding (BPE) nella codifica dei dati per i modelli linguistici. Fusion Token impiega una strategia computazionale più aggressiva rispetto al BPE, espandendo i gruppi di token da bi-grammi a 10-grammi. È interessante notare che, con l'aggiunta di 1024 token al vocabolario, il tasso di compressione supera significativamente quello di un tokenizzatore BPE regolare con un vocabolario di un milione. Nel complesso, il metodo Fusion Token porta a notevoli miglioramenti delle prestazioni grazie a un aumento della portata dei dati per unità di calcolo. Inoltre, una maggiore compressione si traduce in tempi di inferenza più rapidi grazie al minor numero di token per ogni stringa data. Dedicando maggiori risorse di calcolo al processo di creazione del tokenizer, Fusion Token massimizza il potenziale dei modelli linguistici come motori di compressione dati efficienti, consentendo sistemi di modellazione linguistica più efficaci.

  3. Nel campo in rapida evoluzione della generazione di movimenti, il miglioramento della semantica testuale è stato riconosciuto come una strategia altamente promettente per produrre movimenti più accurati e realistici. Tuttavia, le tecniche attuali dipendono spesso da modelli linguistici estesi per perfezionare le descrizioni testuali, senza garantire un allineamento preciso tra i dati testuali e quelli di movimento. Questo disallineamento porta spesso a una generazione di movimenti non ottimale, limitando il potenziale di questi metodi. Per affrontare questo problema, introduciamo un nuovo framework chiamato SemanticBoost, che mira a colmare il divario tra i dati testuali e quelli di movimento. La nostra soluzione innovativa integra informazioni semantiche supplementari derivate dai dati di movimento stessi, insieme a una rete dedicata alla riduzione del rumore, per garantire la coerenza semantica e elevare la qualità complessiva della generazione di movimenti. Attraverso esperimenti e valutazioni approfonditi, dimostriamo che SemanticBoost supera significativamente i metodi esistenti in termini di qualità del movimento, allineamento e realismo. Inoltre, i nostri risultati sottolineano il potenziale di sfruttamento dei segnali semantici dai dati di movimento, aprendo nuove strade per una generazione di movimenti più intuitiva e diversificata.

Notate qualche schema ricorrente? Innanzitutto, vediamo che tutti iniziano con frasi molto simili: "Nel complesso panorama di", "Nel regno di", "Nel settore in rapida evoluzione di". Chiamiamo questo linguaggio artificiosamente fiorito. Abbiamo già scritto in precedenza di quanto spesso gli LLM utilizzino molte parole per produrre pochissimi contenuti effettivi. Sebbene questo possa essere auspicabile per uno studente che cerca di raggiungere un numero minimo di parole in un compito a casa, per un lettore tecnico che cerca di approfondire una ricerca, questo tipo di linguaggio eccessivamente prolisso rende il documento più difficile e dispendioso in termini di tempo da leggere, rendendo al contempo meno chiaro il messaggio effettivo del documento.

Gli articoli sull'intelligenza artificiale vengono effettivamente accettati alle conferenze?

Ci siamo chiesti se gli articoli generati dall'intelligenza artificiale vengano effettivamente filtrati dal processo di revisione tra pari o se alcuni di essi sfuggano al controllo.

Per rispondere a questa domanda, abbiamo analizzato la correlazione tra gli abstract generati dall'IA e le decisioni relative agli articoli presentati all'ICLR 2024. (Gli articoli orali, spotlight e poster sono tutti articoli "accettati"; gli articoli orali e spotlight sono categorie speciali di riconoscimento). Ecco cosa abbiamo scoperto:

CategoriaPercentuale generata dall'intelligenza artificiale
ICLR 2024 orale2.33%
Poster ICLR 20242.71%
ICLR 2024 sotto i riflettori1.36%
Rifiutato5.42%

Sebbene la percentuale di articoli generati dall'intelligenza artificiale che sono stati accettati sia inferiore alla percentuale di quelli inviati, un numero significativo è comunque riuscito a superare il processo di revisione tra pari. Ciò implica che, sebbene i revisori possano individuare alcuni contenuti generati dall'intelligenza artificiale, non riescono a individuarli tutti.

Abbiamo notato che anche alcune presentazioni orali e articoli di spicco hanno abstract generati dall'intelligenza artificiale! Interpretando la situazione con benevolenza, ciò che potremmo scoprire in futuro è che la ricerca potrebbe essere effettivamente di alta qualità e che gli autori stanno semplicemente prendendo delle scorciatoie con ChatGPT per aiutarli a presentare o rivedere meglio il loro lavoro.

In particolare, poiché gran parte della comunità scientifica non è di madrelingua inglese, un uso crescente dei modelli di linguaggio grande (LLM) sarà quello di tradurre in inglese articoli scritti in altre lingue.

Conclusione

Nonostante la comunità dell'IA abbia esplicitamente chiesto agli autori di non utilizzare ChatGPT, molti autori ignorano questa politica e utilizzano comunque gli LLM per scrivere i loro articoli. Ancora più preoccupante è il fatto che nemmeno gli esperti di IA, che fungono da revisori per proteggere le conferenze dagli articoli generati dagli LLM, riescono a individuarli!

ChatGPT sta avendo ulteriori effetti a catena su tutto il processo accademico. Un recente caso di studio dell'ICML ha rilevato che tra il 6 e il 16% delle revisioni tra pari sono state generate dall'IA, e che esiste una correlazione positiva tra le revisioni tra pari generate dall'IA e la vicinanza della data di presentazione della revisione alla scadenza!

Chiediamo alla comunità dell'intelligenza artificiale di applicare meglio queste politiche e agli autori di assumersi la responsabilità di garantire che i loro articoli siano scritti da esseri umani.

Iscriviti alla nostra newsletter
Condividiamo aggiornamenti mensili sulla nostra ricerca nel campo del rilevamento dell'intelligenza artificiale.