Annunciamo una nuova partnership con Proofig! Per saperne di più
Quando si cerca online come funzionano i rilevatori di IA, in genere si trovano molte fonti che citano i termini "perplessità" e "burstiness". Cosa significano questi termini e perché alla fine non funzionano per rilevare i contenuti generati dall'IA? Oggi voglio spiegare cosa sono la perplessità e la burstiness e perché non sono adatte per rilevare i testi generati dall'IA. Cercheremo anche di capire perché non funzionano e perché i rilevatori basati sulla perplessità e sulla burstiness citano erroneamente la Dichiarazione di Indipendenza come generata dall'IA, e perché questi rilevatori sono anche prevenuti nei confronti di chi non è madrelingua inglese. Cominciamo!
Inizieremo con una definizione imprecisa e non tecnica di perplessità, solo per avere un'idea generale di cosa sia la perplessità e di cosa faccia. Per ulteriori informazioni sulla perplessità, ho trovato molto utile questo articolo esplicativo di due minuti.
La perplessità è quanto ogni parola in un testo sia inaspettata o sorprendente, se considerata dal punto di vista di un particolare modello linguistico o LLM.
Ad esempio, ecco due frasi. Concentriamoci sull'ultima parola di ciascuna frase, a scopo dimostrativo. Nel primo esempio, l'ultima parola ha una bassa perplessità, mentre nel secondo esempio, l'ultima parola ha un'alta perplessità.
Bassa perplessità:
Oggi a pranzo ho mangiato una ciotola di *zuppa*.
Elevata perplessità:
Oggi a pranzo ho mangiato una ciotola di *ragni*.
Il motivo per cui la seconda frase è altamente complessa è che molto raramente un modello linguistico vedrebbe esempi di persone che mangiano ciotole di ragni nel proprio set di dati di addestramento, quindi è molto sorprendente per il modello linguistico che la frase finisca con "ragni", invece che con qualcosa come "zuppa" o "un panino" o "un'insalata".
Il termine "perplessità" deriva dalla stessa radice della parola "perplesso", che significa "confuso" o "disorientato". È utile pensare alla perplessità come alla confusione del modello linguistico: quando incontra qualcosa di sconosciuto o inaspettato rispetto a ciò che ha letto e assimilato durante la procedura di addestramento, possiamo pensare al modello linguistico come confuso o disorientato dal completamento.
Ok, perfetto, e che dire della burstiness? La burstiness è la variazione della perplessità nel corso di un documento. Se alcune parole e frasi sorprendenti sono sparse in tutto il documento, diremmo che ha un alto livello di burstiness.
Sfortunatamente, la maggior parte dei rilevatori commerciali (ad eccezione di Pangram) non sono trasparenti riguardo alla loro metodologia, ma da quanto si evince dalle loro descrizioni, il testo umano è considerato più complesso e con una maggiore variabilità rispetto al testo generato dall'intelligenza artificiale, mentre il testo generato dall'intelligenza artificiale ha una probabilità e una variabilità inferiori.
Di seguito è possibile vedere una visualizzazione di questo concetto. Ho scaricato il modello GPT-2 da Huggingface e ho calcolato la perplessità di tutto il testo contenuto in due documenti: una serie di recensioni di ristoranti scritte da esseri umani e una serie di recensioni generate dall'intelligenza artificiale. Ho quindi evidenziato in blu il testo a bassa perplessità e in rosso quello ad alta perplessità.
Visualizzazione della complessità che mette a confronto il testo generato dall'intelligenza artificiale e quello scritto da esseri umani
Come potete vedere, il testo generato dall'IA è di un blu intenso su tutta la superficie, il che suggerisce valori di perplessità uniformemente bassi. Il testo generato dall'uomo è prevalentemente blu, ma presenta alcune punte di rosso. Questo è ciò che definiremmo un'elevata irregolarità.
È questa idea che ispira i rilevatori di perplessità e irruenza. Non solo alcuni dei primi rilevatori commerciali di IA si basano su questa idea, ma essa ha anche ispirato alcuni studi accademici come DetectGPT e Binoculars.
Ad essere sinceri, questi rilevatori di perplessità e irregolarità funzionano in alcuni casi! Semplicemente non crediamo che possano funzionare in modo affidabile in contesti ad alto rischio in cui è necessario evitare imprecisioni, come ad esempio in classe, dove un falso positivo rilevato dall'IA potrebbe potenzialmente minare la fiducia tra insegnante e studente o, peggio ancora, creare prove inesatte in un caso legale.
Per chi non ha familiarità con il processo di creazione dei modelli linguistici di grande dimensione (LLM), prima che questi possano essere implementati e utilizzati come chatbot, devono essere sottoposti a una procedura chiamata addestramento. Durante l'addestramento, il modello linguistico analizza miliardi di testi e apprende i modelli linguistici sottostanti di quello che viene chiamato il suo "set di addestramento".
I dettagli meccanici precisi della procedura di addestramento esulano dall'ambito di questo post sul blog, ma l'unico dettaglio fondamentale è che nel processo di ottimizzazione, l'LLM è direttamente incentivato a ridurre al minimo la perplessità sui documenti del suo set di addestramento! In altre parole, il modello impara nel tempo che i frammenti di testo che vede ripetutamente nella sua procedura di addestramento dovrebbero avere la minor perplessità possibile.
Perché è un problema?
Poiché al modello viene richiesto di rendere i documenti del set di addestramento a bassa perplessità, i rilevatori di perplessità e burstiness classificano i documenti comuni del set di addestramento come AI, anche quando i documenti del set di addestramento sono in realtà scritti da esseri umani!
Ecco perché i rilevatori di IA basati sulla perplessità classificano la Dichiarazione di Indipendenza come generata dall'IA: poiché la Dichiarazione di Indipendenza è un famoso documento storico che è stato riprodotto in innumerevoli libri di testo e articoli Internet in tutto il web, compare spesso nei set di addestramento dell'IA. E poiché il testo è esattamente lo stesso ogni volta che viene visualizzato durante l'addestramento, il modello può memorizzare cos'è la Dichiarazione di Indipendenza quando la vede e quindi assegnare automaticamente a tutti i token una perplessità molto bassa, il che rende anche la burstiness davvero bassa.
Ho eseguito la stessa visualizzazione sopra riportata sulla Dichiarazione di Indipendenza e vediamo la stessa firma AI: un colore blu intenso e uniforme in tutto il testo, che indica che ogni parola ha una bassa perplessità. Dal punto di vista di un rilevatore basato sulla perplessità e sulla burstiness, la Dichiarazione di Indipendenza è completamente indistinguibile da un contenuto generato dall'intelligenza artificiale.
È interessante notare che la prima frase della Dichiarazione di Indipendenza è ancora più blu e presenta un livello di perplessità inferiore rispetto al resto del testo. Ciò accade perché la prima frase è di gran lunga la parte più riprodotta del brano e compare più frequentemente nel set di addestramento GPT-2.
Visualizzazione della complessità della Dichiarazione di Indipendenza
Allo stesso modo, abbiamo riscontrato che anche altre fonti comuni di dati di addestramento LLM presentano tassi elevati di falsi positivi con i rilevatori di perplessità e burstiness. Wikipedia è un dataset di addestramento molto comune grazie alla sua alta qualità e alla licenza senza restrizioni: pertanto, è estremamente frequente che venga erroneamente identificato come generato dall'IA, poiché i modelli linguistici sono ottimizzati direttamente per ridurre la perplessità sugli articoli di Wikipedia.
Si tratta di un problema che sta peggiorando con il continuo sviluppo e l'evoluzione dell'IA, poiché i modelli linguistici più recenti richiedono un'enorme quantità di dati: mentre leggete questo articolo, i crawler di OpenAI, Google e Anthropic stanno setacciando freneticamente Internet, continuando ad acquisire dati per l'addestramento dei modelli linguistici. Gli editori e i proprietari di siti web dovrebbero preoccuparsi che consentire a questi crawler di scansionare i loro siti web per l'addestramento dei modelli linguistici di grandi dimensioni (LLM) possa significare che i loro contenuti potrebbero essere erroneamente classificati come generati dall'intelligenza artificiale in futuro? Le aziende che stanno valutando la possibilità di concedere in licenza i propri dati a OpenAI dovrebbero valutare il rischio che tali dati vengano erroneamente identificati come generati dall'intelligenza artificiale una volta che gli LLM li avranno acquisiti? Riteniamo che questo sia un caso di fallimento del tutto inaccettabile, che sta peggiorando nel tempo.
Un altro problema legato all'uso della perplessità e della burstiness come metriche per il rilevamento è che sono relative a un particolare modello linguistico. Ciò che ci si può aspettare dal GPT, ad esempio, potrebbe non essere applicabile al Claude. Inoltre, quando vengono rilasciati nuovi modelli, anche la loro perplessità è diversa.
I cosiddetti rilevatori basati sulla perplessità "black box" devono scegliere un modello linguistico per misurare la perplessità effettiva. Tuttavia, quando la perplessità di quel modello linguistico differisce dalla perplessità del generatore, si ottengono risultati estremamente imprecisi e questo problema si aggrava con il rilascio di nuovi modelli.
I fornitori di codice chiuso non sempre indicano le probabilità di ciascun token, quindi non è nemmeno possibile calcolare la perplessità per i modelli commerciali a codice chiuso, come ChatGPT, Gemini e Claude. Nella migliore delle ipotesi, è possibile utilizzare un modello open source per misurare la perplessità, ma ciò comporta gli stessi problemi del difetto 2.
È emersa una narrativa secondo cui il rilevamento dell'IA è parziale nei confronti dei parlanti non madrelingua inglese, supportata da uno studio condotto da Stanford nel 2023 su 91 saggi TOEFL. Sebbene Pangram effettui un benchmarking approfondito dei testi in inglese non madrelingua e li incorpori nel nostro set di addestramento in modo che il modello sia in grado di riconoscerli e rilevarli, i rilevatori basati sulla perplessità hanno effettivamente un tasso di falsi positivi elevato sui testi in inglese non madrelingua.
Il motivo è che i testi scritti da chi sta imparando l'inglese sono in genere meno complessi e meno ricchi di espressioni idiomatiche. Crediamo che non sia un caso: questo succede perché durante il processo di apprendimento della lingua, il vocabolario dello studente è molto più limitato e lo studente non è in grado di formare frasi complesse che sarebbero fuori dal comune o molto sorprendenti per un modello linguistico. Riteniamo che imparare a scrivere in modo linguisticamente corretto, con un alto grado di complessità e varietà, sia un'abilità linguistica avanzata che deriva dall'esperienza con la lingua.
Gli studenti non madrelingua inglese, e per estensione anche gli studenti neurodiversi o con disabilità, sono più vulnerabili all'individuazione da parte dei rilevatori di IA basati sulla perplessità.
Ciò che riteniamo essere il principale difetto dei rilevatori basati sulla perplessità, e il motivo per cui noi di Pangram abbiamo invece scelto un approccio basato sul deep learning, è che questi rilevatori basati sulla perplessità non sono in grado di auto-migliorarsi con i dati e la scala di calcolo.
Cosa significa questo? Man mano che Pangram acquisisce maggiore esperienza con i testi umani attraverso il nostro algoritmo di apprendimento attivo, migliora gradualmente. È così che abbiamo ridotto il nostro tasso di falsi positivi dal 2% all'1%, allo 0,1% e ora allo 0,01%. I rilevatori basati sulla perplessità non sono in grado di migliorare vedendo più dati.
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature è un articolo che esamina il panorama della perplessità locale per distinguere la scrittura umana da quella generata dall'intelligenza artificiale, piuttosto che i valori assoluti di perplessità.
Individuare gli LLM con il binocolo: il rilevamento zero-shot del testo generato dalla macchina utilizza una nuova metrica chiamata "cross-perplexity" per migliorare il rilevamento della perplexity di base.
Il white paper tecnico di Pangram approfondisce la nostra soluzione alternativa per il rilevamento di testi generati dall'intelligenza artificiale basata sul deep active learning.
C'è una grande differenza tra il calcolo di una statistica che correla con la scrittura generata dall'IA e la creazione di un sistema di livello produttivo in grado di rilevare in modo affidabile la scrittura generata dall'IA. Sebbene i rilevatori basati sulla perplessità catturino un aspetto importante di ciò che rende umana la scrittura umana e ciò che rende artificiale la scrittura generata dall'IA, per i motivi descritti in questo articolo, non è possibile utilizzare un rilevatore basato sulla perplessità per rilevare in modo affidabile la scrittura generata dall'IA mantenendo un tasso di falsi positivi sufficientemente basso per le applicazioni di produzione.
In ambiti come quello dell'istruzione, dove è fondamentale evitare i falsi positivi, speriamo di vedere un aumento delle ricerche orientate verso metodi basati sul deep learning e lontane dalla perplessità e dalla burstiness, ovvero dai metodi basati su metriche.
Ci auguriamo che questo chiarisca perché Pangram ha scelto di non utilizzare la perplessità e la burstiness per rilevare i testi generati dall'intelligenza artificiale, concentrandosi invece su metodi affidabili e scalabili.
