Annunciamo una nuova partnership con Proofig! Per saperne di più
Uno degli aspetti più importanti del nostro lavoro in Pangram è ridurre al minimo il tasso di falsi positivi. Ciò significa ridurre il più possibile la probabilità che un testo scritto da un essere umano venga segnalato come generato dall'intelligenza artificiale. Oggi spiegheremo i tassi di falsi positivi di Pangram su molti tipi diversi di scrittura, come misuriamo e valutiamo i nostri modelli per garantire che il tasso di falsi positivi sia il più basso possibile e, infine, alcune delle tecniche che utilizziamo per creare un software di rilevamento dell'IA con il tasso di falsi positivi più basso del settore.
Nel contesto del rilevamento dell'IA, un falso positivo si verifica quando un rilevatore prevede erroneamente che un campione generato dall'uomo sia stato generato dall'IA. Al contrario, un falso negativo si verifica quando un campione generato dall'IA viene erroneamente previsto come generato dall'uomo.
Falsi positivi e falsi negativi nel rilevamento dell'IA
Il diagramma sopra illustra i due tipi di errori. Se il rosso rappresenta la classe negativa e il verde rappresenta la classe positiva, una X rossa prevista come verde sarebbe un falso positivo, mentre una O verde prevista come rossa sarebbe un falso negativo.
In statistica si utilizzano i termini errore di tipo I ed errore di tipo II: questi termini hanno esattamente lo stesso significato. Un errore di tipo I è un falso positivo, mentre un errore di tipo II è un falso negativo. Gli statistici, e in particolare quelli che lavorano nel campo delle scienze mediche, utilizzano anche i termini "sensibilità" e "specificità" per distinguere questi due tassi di errore. Gli scienziati che si occupano di apprendimento automatico utilizzano i termini "precisione" e "richiamo". Sebbene esistano alcune lievi differenze tecniche tra questi termini, a fini didattici, in questo post ci limiteremo a utilizzare semplicemente "falsi positivi" e "falsi negativi", poiché ritengo che questi siano i termini più intuitivi per indicare questi due tipi di errori.
Nel rilevamento dell'IA, un falso positivo è molto peggiore di un falso negativo. Accusare ripetutamente gli studenti che scrivono i compiti da soli senza l'aiuto dell'IA di plagio IA mina notevolmente la fiducia tra studente e insegnante e può causare molta ansia e stress allo studente. D'altra parte, un falso negativo può significare che ogni tanto un imbroglione possa sfuggire al controllo, il che non è un risultato così grave.
Vale la pena notare che in altri problemi di rilevamento, il falso negativo può causare danni molto maggiori rispetto al falso positivo: ad esempio, in un test di screening per il cancro è molto meglio che il test indichi erroneamente che il paziente ha il cancro, piuttosto che il test non rilevi affatto il cancro effettivo del paziente. Se il test indica erroneamente che il paziente ha il cancro, anche se può essere scomodo per il paziente doversi sottoporre a ulteriori controlli, esami e test, è comunque molto meglio che non diagnosticare il cancro, che rappresenta una minaccia per la vita del paziente.
Tornando al rilevamento dell'IA, un falso positivo causa più danni di un falso negativo, ma entrambi sono importanti: ignorare costantemente il testo generato dall'IA e prevederlo erroneamente come umano compromette anche il valore dello strumento. Quindi, in Pangram, il nostro approccio generale è quello di ridurre al minimo sia i falsi negativi che i falsi positivi, ma trattando i falsi positivi come una priorità più alta.
La risposta è: dipende!
Nel complesso, abbiamo calcolato che il nostro tasso di falsi positivi è di circa 1 su 10.000: a volte leggermente superiore, altre volte leggermente inferiore, a seconda del tipo di testo e di altre variabili.
Misuriamo il tasso di falsi positivi di Pangram su un'ampia varietà di testi: li chiamiamo domini. Sebbene non siano esaustivi, di seguito sono riportati i nostri tassi di falsi positivi più aggiornati che misuriamo internamente su ciascun dominio:
| Dominio | Tasso di falsi positivi |
|---|---|
| Saggi accademici | 0.004% |
| Recensioni dei prodotti (inglese) | 0.004% |
| Recensioni dei prodotti (spagnolo) | 0.008% |
| Recensioni dei prodotti (giapponese) | 0.015% |
| Abstract scientifici | 0.001% |
| Documentazione del codice | 0.0% |
| Trascrizioni del Congresso | 0.0% |
| Ricette | 0.23% |
| Documenti medici | 0.000% |
| Recensioni aziendali statunitensi | 0.0004% |
| Sceneggiature dei film di Hollywood | 0.0% |
| Wikipedia (inglese) | 0.016% |
| Wikipedia (spagnolo) | 0.07% |
| Wikipedia (giapponese) | 0.02% |
| Wikipedia (arabo) | 0.08% |
| Articoli di attualità | 0.001% |
| Libri | 0.003% |
| Poesie | 0.05% |
| Discorsi politici | 0.0% |
| Domande e risposte sui social media | 0.01% |
| Scrittura creativa, racconti brevi | 0.009% |
| Articoli pratici | 0.07% |
In generale, Pangram funziona al meglio quando sono soddisfatte le seguenti condizioni:
Riteniamo che questi fattori siano il motivo per cui Pangram offre prestazioni ottimali su saggi, scritti creativi e recensioni. Sebbene gli articoli di cronaca, i documenti scientifici e le voci di Wikipedia siano più formali e tecnici, la disponibilità di dati è abbondante in questi ambiti e quindi Pangram è diventato molto bravo a riconoscere anche i modelli più sottili nella scrittura. Infine, ambiti come le ricette e la poesia sono i più deboli, perché il testo tende ad essere breve, non scritto in frasi complete (dando all'LLM meno possibilità di inserire il suo stile idiosincratico nel testo) e sono generalmente più rari online rispetto agli altri ambiti.
In pratica, cosa significa questo? Sebbene Pangram sia ancora relativamente affidabile in tutti i campi, è possibile avere maggiore fiducia nella sua accuratezza quando il testo è lungo, composto da frasi complete e richiede un contributo più originale da parte dello scrittore. Per questo motivo, sconsigliamo di sottoporre a screening elementi quali brevi elenchi puntati e schemi, matematica, risposte molto brevi (ad esempio frasi singole) e testi estremamente formulari come lunghi elenchi di dati, fogli di calcolo, scritti basati su modelli e manuali di istruzioni.
Non possiamo eseguire lo stesso benchmark approfondito sui nostri concorrenti, semplicemente perché il costo per farlo sarebbe estremamente proibitivo. Tuttavia, possiamo esaminare quello che i nostri concorrenti dichiarano essere il loro tasso di falsi positivi.
Il tasso di falsi positivi segnalato da Turnitin sul proprio sito web
L'ultimo white paper di Turnitin riporta un tasso di falsi positivi dello 0,51% sulla scrittura accademica, ovvero circa 1 su 200, a livello di documento. Ciò significa che 1 su 200 elaborati presentati dagli studenti verrà erroneamente segnalato come AI.
Il nostro tasso di falsi positivi, misurato su un set di dati simile di saggi accademici, è dello 0,004%, ovvero 1 su 25.000.
Si tratta di una differenza significativa. In una grande università di ricerca possono essere presentati fino a 100.000 elaborati all'anno. Questa è la differenza tra 500 falsi positivi per Turnitin e solo 4 per Pangram.
Il tasso di falsi positivi riportato da GPTZero sul proprio sito web
GPTZero dichiara un tasso di falsi positivi dell'1%, che è 2 volte peggiore di Turnitin e 250 volte peggiore di Pangram.
Abbiamo confrontato internamente GPTZero e Pangram su un insieme più piccolo di documenti tratti dal nostro set VIP generale, per garantire un confronto equo. Abbiamo riscontrato un tasso di falsi positivi peggiore rispetto a quanto riportato, pari al 2,01%.
Tasso di falsi positivi segnalato da Copyleaks sul proprio sito web
Copyleaks dichiara un tasso di falsi positivi dello 0,2%, ovvero 1 su 500, che se fosse vero sarebbe 50 volte peggiore di Pangram.
Inoltre, un numero isolato come questo non racconta tutta la storia. Non sappiamo da dove provengano i dati e quali potenziali distorsioni possano esserci state nella valutazione. Ecco perché effettuiamo un benchmarking approfondito e pubblichiamo questo articolo che descrive in dettaglio il nostro processo di valutazione del modello.
Dando uno sguardo allo studio RAID pubblicato lo scorso anno da Liam Dugan e dai suoi coautori, lo studio n. 2 nell'articolo di sintesi della ricerca che abbiamo pubblicato, vorremmo richiamare l'attenzione sul seguente grafico.
Studio RAID sui tassi di falsi positivi tra i diversi rilevatori
La maggior parte dei rilevatori fornisce una "soglia", ovvero la percentuale di affidabilità al di sopra della quale il modello indica che il testo è stato generato dall'intelligenza artificiale e al di sotto della quale indica che il testo è stato scritto da un essere umano. Modificando la soglia è possibile bilanciare i falsi positivi e i falsi negativi.
In questo grafico, sull'asse x è riportato il tasso di falsi positivi causato dallo spostamento della soglia, mentre sull'asse y è riportato il richiamo: ovvero la frazione di documenti AI in grado di essere classificati come AI quando valutati a quella soglia.
In breve, i rilevatori dei nostri concorrenti non funzionano quando sono costretti ad avere un tasso di falsi positivi inferiore all'1%; ovvero, non sarebbero in grado di rilevare alcuna IA quando la soglia è sufficientemente bassa da produrre un FPR dell'1%.
Pangram è sottoposto a un processo estremamente rigoroso di approvazione e collaudo prima che qualsiasi nuovo modello possa essere implementato nella nostra dashboard e API.
Durante il nostro controllo qualità, effettuiamo tre tipi di test per i falsi positivi, ciascuno dei quali raggiunge un equilibrio tra valutazione quantitativa e qualitativa. Le nostre valutazioni includono:
Set di holdout su larga scala. Circa 10.000-10.000.000 di esempi per set. Si tratta di database Internet su larga scala e ad accesso libero precedenti a ChatGPT (2022), dai quali abbiamo selezionato un set di holdout che non è stato utilizzato per l'addestramento e che è stato messo da parte esclusivamente a scopo di valutazione.
Set VIP di medie dimensioni. Circa 1.000 esempi per set. Si tratta di set di dati che ingegneri o etichettatori hanno raccolto manualmente da fonti affidabili, controllato visivamente e verificato personalmente per accertarne la provenienza umana. Sebbene gli esperti qualificati siano in grado di individuare facilmente i contenuti generati dall'intelligenza artificiale, talvolta possono commettere errori, pertanto controlliamo regolarmente i dati e li puliamo per garantirne l'accuratezza.
Set di sfide. Circa 10-100 esempi per set. Si tratta di falsi positivi segnalati in precedenza, casi difficili che ci sono stati inviati dai nostri amici e, in generale, esempi interessanti su cui vogliamo testare le nostre prestazioni. Raccogliamo anche esempi di testi fuori dal comune, come ricette, poesie, sceneggiature di film e altre forme scritte che non sono ben rappresentate nei set di addestramento dei modelli linguistici di grandi dimensioni, e li consideriamo anch'essi set di sfida, nonché un benchmark complessivo per valutare le prestazioni del nostro modello quando viene messo "fuori distribuzione".
Oltre a questi tre tipi di controllo qualità, abbiamo anche dei test unitari. Questi test unitari, in parole povere, verificano il nostro modello per individuare quelli che potremmo definire "errori imbarazzanti". La nostra attuale suite di test unitari ci impone di prevedere il termine "umano" per documenti come la Dichiarazione di Indipendenza, frasi famose della letteratura, i testi del nostro sito web e i post del nostro blog. Se uno qualsiasi di questi test unitari fallisce, blocchiamo l'implementazione di un nuovo modello e torniamo al punto di partenza. Una delle nostre filosofie guida nella valutazione è quella di essere ipervigili nel tracciare e monitorare questi "errori imbarazzanti", in modo che non si ripetano mai quando viene rilasciato un nuovo modello.
Diagramma che mostra i tre tipi di set di valutazione utilizzati da Pangram: set di holdout su larga scala (oltre 10 milioni di esempi), set VIP su media scala (oltre 1000 esempi) e set di sfida (10-100 esempi).
Le persone con una predisposizione per la matematica e le scienze potrebbero chiedersi: perché è necessaria una valutazione qualitativa? Più campioni non sono sempre meglio?
La mia risposta a questa domanda sarebbe: un numero maggiore di campioni non è sempre sinonimo di qualità migliore. Come disse una volta un saggio profeta, esistono bugie, bugie dannose e statistiche. Ma, seriamente, crediamo che quando si crea un grande set di dati su larga scala, si finisce sempre per introdurre qualche tipo di distorsione. E quando si ha un set di dati così grande da non poter esaminare ogni singolo esempio, non si può sapere se il modello si è adattato eccessivamente a un pregiudizio nel set di dati che lo porterà a funzionare bene nel test, ma male nel mondo reale. (Per inciso, crediamo che questo sia il motivo per cui ci sono molti rilevatori di IA online che riportano una "precisione del 99%", ma che non si avvicinano nemmeno a tale percentuale quando li si testa effettivamente).
Un esempio divertente che illustra l'importanza di queste diverse tipologie di suite di test si è verificato agli albori di Pangram, quando abbiamo introdotto per la prima volta Wikipedia nel set di addestramento. Uno dei nostri primi tentativi falliti si è rivelato ottimo sul set di verifica, ma molto scarso sul set VIP, che era costituito da articoli di Wikipedia raccolti manualmente. Alla fine abbiamo scoperto che nel set di dati Huggingface che stavamo utilizzando, dal punto di vista umano, la pronuncia dei nomi espressa nell'alfabeto fonetico internazionale veniva riformattata in un modo davvero strano a cui il modello si adattava eccessivamente: guardava semplicemente la formattazione del nome e poi concludeva, in base alla formattazione, se il documento fosse AI o umano. Ottimo sul set di test, ma terribile nel mondo reale quando il modello non aveva quel particolare indizio! Ecco perché è importante avere un set di test che rifletta accuratamente il tipo di testo che Pangram vedrà nel mondo reale.
Prima di inviare un modello ai clienti di Pangram, eseguiamo una rigorosa procedura di approvazione che prevede una valutazione sia quantitativa che qualitativa, in cui sottoponiamo il modello a stress test e ne esaminiamo attentamente le prestazioni rispetto al modello attuale.
Valutazione quantitativa: significa che le metriche relative al tasso di falsi positivi su tutti i holdout, i set VIP e i casi di sfida non devono essere sottoposte a regressione.
Valutazione qualitativa: nella maggior parte dei casi, alcuni esempi saranno migliorati, mentre altri subiranno una regressione. Quando possibile, esaminiamo attentamente gli esempi specifici che subiscono una regressione e ci assicuriamo che i fallimenti siano spiegabili. Spesso si tratta di aspetti sfumati e specifici delle particolari ipotesi che stiamo testando, ma in generale vogliamo assicurarci che i casi di fallimento non mostrino un modello particolare che potrebbe generalizzarsi in un fallimento nel mondo reale dopo l'implementazione.
Controllo dell'atmosfera / red teaming: infine, una volta completata la valutazione quantitativa e qualitativa, effettuiamo semplicemente un "controllo dell'atmosfera" del modello inviandolo al team e chiedendo loro di provarlo per un po'. Per alcuni aggiornamenti, potremmo anche chiedere a tester interni o clienti beta di testare il modello prima di rilasciarlo pubblicamente (di solito li incoraggiamo a cercare casi che non funzionano con il modello!).
Test A/B retroattivi: eseguiamo inferenze offline sulle nostre vecchie previsioni e analizziamo le differenze tra il vecchio modello e quello nuovo. Non sempre disponiamo dei dati reali relativi alle inferenze precedenti, ma anche in questo caso cerchiamo modelli coerenti che possano evidenziare casi di errore reali.
In sintesi, sebbene siamo estremamente accurati e scientifici nel misurare le prestazioni del nostro modello con metriche e statistiche, non ci affidiamo solo ai numeri per avere un quadro completo della situazione. Ci affidiamo anche ai nostri occhi, al nostro intuito e alla nostra capacità di riconoscere gli schemi per esaminare attentamente il modello e individuare eventuali errori che le nostre metriche potrebbero aver trascurato. Ci affidiamo anche al nostro team di tester, red teamer e clienti beta per individuare eventuali lacune che il team potrebbe aver trascurato.
Mantenere un basso tasso di falsi positivi è fondamentale per la nostra missione di ricerca. Ecco alcune delle tecniche che abbiamo utilizzato finora per ottenere il miglior tasso di errore possibile.
Sebbene i rilevatori di IA della concorrenza possano essere "progettati per il mondo accademico/le scuole/le aule/gli educatori", ciò che realmente significa è che il loro set di addestramento contiene solo testi accademici.
D'altra parte, abbiamo creato Pangram per sfruttare la Bitter Lesson: ovvero che gli algoritmi di apprendimento generici, addestrati su grandi volumi di dati provenienti da un'ampia varietà di fonti, sono più efficaci dei modelli specifici addestrati su dati specifici di un determinato dominio.
Ciò significa che addestriamo il nostro rilevatore di IA su un'ampia varietà di testi: creativi, tecnici, scientifici, enciclopedici, recensioni, siti web, post di blog... e l'elenco potrebbe continuare. Il motivo è simile a quello di una formazione umanistica a tutto tondo: l'esposizione a molte discipline e stili di scrittura aiuta il modello a comprendere e generalizzare meglio quando incontra nuovi casi. Seguendo la tendenza più ampia nella formazione dell'IA, ChatGPT e altri modelli linguistici di grandi dimensioni non vengono addestrati su dati specifici per casi d'uso particolari, ma su dati testuali generici su larga scala in modo da poter acquisire un'intelligenza generale: crediamo nella stessa strategia per l'addestramento di rilevatori di IA che siano robusti rispetto a tutti i diversi tipi generici di testo che un LLM può produrre.
Abbiamo scritto molto sul nostro algoritmo di apprendimento attivo, che sfrutta una tecnica chiamata hard negative mining, e riteniamo che questo sia il motivo principale per cui siamo riusciti a ridurre il nostro tasso di falsi positivi quasi a zero.
In sostanza, il motivo per cui questo funziona è che la maggior parte degli esempi reali sono "esempi facili": una volta che il modello apprende i modelli di base di ciò che è umano e ciò che è IA, è molto facile distinguere l'uno dall'altro per la stragrande maggioranza del set di dati. Tuttavia, questo permette di ottenere solo una precisione del 99% circa. Per ottenere gli ultimi due punti percentuali di accuratezza, dobbiamo trovare i casi più difficili per addestrare il modello: possiamo pensare a questi casi come quelli in cui un essere umano decide semplicemente di scrivere in modo molto simile a un modello linguistico di IA, ma in realtà scrive in quel modo solo per coincidenza. Per trovare questi negativi difficili, eseguiamo una ricerca su larga scala su set di dati su scala Internet come quelli utilizzati per addestrare gli LLM, quindi eseguiamo un mirroring sintetico per generare esempi di IA dal suono simile. Maggiori dettagli sono disponibili nella nostra pagina "Come funziona".
Formuliamo il nostro obiettivo di ottimizzazione in modo tale che il modello dia priorità ai falsi positivi rispetto ai falsi negativi anche durante la procedura di addestramento stessa. Quando il modello sbaglia un documento umano, viene "penalizzato" con un fattore molto più pesante rispetto a quando sbaglia un documento AI. Questo costringe il modello ad essere conservativo e a prevedere che un documento sia AI solo se è assolutamente sicuro.
Questo riguarda la selezione della soglia descritta in RAID. Selezioniamo la nostra soglia sulla base della valutazione di milioni di documenti nei nostri set di valutazione per bilanciare in modo appropriato i tassi di falsi positivi e falsi negativi. Con la nostra selezione della soglia, cerchiamo di trovare un equilibrio tra il mantenimento di un tasso di falsi negativi ragionevole e il non compromettere i nostri falsi positivi.
Amiamo lavorare con i ricercatori per migliorare l'accuratezza complessiva del nostro software e siamo appassionati di benchmarking aperto e trasparenza nel rilevamento dell'IA. Per richieste di collaborazione, domande sull'accuratezza di Pangram o ulteriori informazioni, contattateci all'indirizzo info@pangram.com.
