Annunciamo una nuova partnership con Proofig! Per saperne di più
Siamo entusiasti di vedere la nuova ricerca di Jenna Russell, Marzena Karpinksa e Mohit Iyyer, collaboratori dell'Università del Maryland e di Microsoft, che dimostra che Pangram è il miglior sistema di rilevamento dell'IA e l'unico in grado di superare gli esperti umani addestrati nel rilevare i contenuti generati dall'IA. Leggi l'articolo completo qui.

Oltre a studiare l'efficacia dei rilevatori automatici di IA, i ricercatori approfondiscono anche il modo in cui esperti umani qualificati individuano i segnali che li aiutano a determinare i segni rivelatori dei contenuti generati dall'IA. Riteniamo che questa ricerca rappresenti un enorme passo avanti per la spiegabilità e l'interpretabilità nel rilevamento dell'IA e siamo entusiasti di esplorare ulteriormente questa direzione di ricerca.
In questo post del blog spiegheremo i punti salienti della ricerca e cosa significa per il futuro del rilevamento LLM.
In passato abbiamo scritto su come individuare i testi scritti dall'intelligenza artificiale e sul test di riferimento umano, e su come lo utilizziamo per ottenere preziose intuizioni sui testi generati dall'intelligenza artificiale che ci aiutano a sviluppare modelli migliori.
Normalmente, quando iniziamo ad allenarci a individuare recensioni, saggi, post di blog o notizie generati dall'IA, all'inizio non siamo molto bravi. Ci vuole un po' di tempo prima di iniziare a cogliere i segni rivelatori che un testo è stato generato da ChatGPT o da un altro modello linguistico. Ad esempio, quando abbiamo iniziato a studiare le recensioni, abbiamo imparato col tempo, esaminando molti dati, che ChatGPT ama iniziare una recensione con la frase "Recentemente ho avuto il piacere di", oppure, quando abbiamo iniziato a leggere racconti di fantascienza generati dall'intelligenza artificiale, abbiamo notato che spesso iniziano con la frase "Nell'anno di". Tuttavia, col tempo, iniziamo a interiorizzare questi schemi e riusciamo a riconoscerli.
I ricercatori si sono anche chiesti se fosse possibile formare degli esperti in grado di individuare gli articoli generati dall'intelligenza artificiale allo stesso modo. Hanno formato cinque annotatori su Upwork per individuare i contenuti generati dall'intelligenza artificiale e hanno confrontato la loro capacità di individuare l'intelligenza artificiale a occhio nudo con quella di persone non esperte.
Sebbene fosse prevedibile una differenza nella capacità dei due gruppi di individuare il testo scritto dall'IA, ciò che i ricercatori hanno riscontrato è stato un divario sostanziale. I non esperti hanno ottenuto risultati simili al caso nel rilevare il testo generato dall'IA, mentre gli esperti hanno dimostrato un'elevata accuratezza (con un tasso di positivi veri superiore al 90% in media).

Una sezione che abbiamo trovato particolarmente interessante è stata quella intitolata "Cosa vedono gli annotatori esperti che i non esperti non vedono?". I ricercatori hanno chiesto ai partecipanti di spiegare perché ritenevano che un testo fosse stato generato dall'intelligenza artificiale o meno, quindi hanno analizzato i commenti dei partecipanti.
Ecco alcune analisi tratte direttamente dal documento:
"I non esperti spesso si fissano erroneamente su determinate proprietà linguistiche rispetto agli esperti. Un esempio è la scelta del vocabolario, dove i non esperti considerano l'inclusione di qualsiasi tipo di parola "sofisticata" o comunque poco frequente come segno di un testo generato dall'IA; al contrario, gli esperti hanno molta più familiarità con le parole e le frasi esatte abusate dall'IA (ad esempio, testamento, cruciale). I non esperti credono anche che gli autori umani siano più propensi a formare frasi grammaticalmente corrette e quindi attribuiscono le frasi concatenate all'IA, ma è vero il contrario: gli esseri umani sono più propensi dell'IA a usare frasi non grammaticalmente corrette o concatenate. Infine, i non esperti attribuiscono qualsiasi testo scritto in tono neutro all'IA, il che porta a molti falsi positivi perché anche la scrittura formale umana è spesso neutra nel tono" (Russell, Karpinska, & Iyyer, 2025).
Nell'appendice, gli autori forniscono un elenco di "vocabolario AI" comunemente utilizzato da ChatGPT, una funzionalità che abbiamo recentemente rilasciato nella dashboard Pangram che evidenzia le frasi AI comunemente utilizzate!

In base alla nostra esperienza, abbiamo scoperto che, nonostante molte persone pensino che l'IA utilizzi un vocabolario sofisticato e "sofisticato", in pratica abbiamo riscontrato che l'IA tende invece a utilizzare un vocabolario più cliché e metaforico che spesso non ha alcun senso. In modo informale, potremmo dire che gli LLM sono più simili a persone che cercano di sembrare intelligenti, ma in realtà utilizzano solo frasi che pensano possano farle sembrare intelligenti.
Una delle domande che ci viene posta più spesso a Pangram è: come riuscite a stare al passo con i modelli all'avanguardia? Quando i modelli linguistici migliorano, significa che Pangram non funzionerà più? È una sorta di gioco al gatto e al topo in cui i laboratori all'avanguardia come OpenAI ci batteranno?
Anche i ricercatori si sono posti questa domanda e hanno studiato le prestazioni di diversi metodi di rilevamento dell'IA rispetto al modello o1-pro di OpenAI, il più avanzato rilasciato fino ad oggi.
I ricercatori hanno scoperto che Pangram è accurato al 100% nel rilevare gli output o1-pro e che siamo ancora accurati al 96,7% nel rilevare gli output o1-pro "umanizzati" (di cui parleremo tra poco)! In confronto, nessun altro rilevatore automatico supera nemmeno il 76,7% sugli output o1-pro di base.
Come fa Pangram a generalizzare in questo modo? Dopotutto, al momento dello studio, non avevamo nemmeno dati o1-pro nel nostro set di addestramento.
Come tutti i modelli di deep learning, crediamo nel potere della scalabilità e della potenza di calcolo. Innanzitutto, partiamo da un potente modello di base preaddestrato su un enorme corpus di addestramento, proprio come gli stessi LLM. In secondo luogo, abbiamo creato una pipeline di dati pensata per la scalabilità. Pangram è in grado di eseguire un riconoscimento sottile dei modelli dal suo corpus di addestramento composto da 100 milioni di documenti scritti da esseri umani.
Non ci limitiamo a creare un set di dati per saggi, notizie o recensioni: cerchiamo di raccogliere la più ampia rete possibile di tutti i dati scritti dall'uomo esistenti, in modo che il modello possa apprendere dalla distribuzione di dati della massima qualità e più diversificata e imparare a conoscere tutti i tipi di scrittura umana. Abbiamo scoperto che questo approccio generale al rilevamento dell'IA funziona molto meglio dell'approccio specializzato che consiste nel creare un modello per ogni dominio testuale.
A complemento del nostro dataset umano estremamente ampio e di alta qualità, disponiamo di una pipeline di dati sintetici e di un algoritmo di ricerca basato sull'apprendimento attivo. Per ottenere i dati AI per il nostro algoritmo, utilizziamo una libreria esaustiva di prompt e tutti i principali modelli AI open source e closed source per generare dati sintetici. Utilizziamo prompt speculari sintetici, di cui abbiamo parlato nel nostro rapporto tecnico, e il hard negative mining, che cerca gli esempi con il più alto tasso di errore nel nostro pool di dati e crea esempi di IA molto simili a quelli umani, ricalibrando il modello fino a quando non vediamo più errori. In questo modo riusciamo a ridurre in modo molto efficiente a zero i tassi di falsi positivi e falsi negativi del nostro modello.
In sintesi, la nostra generalizzazione deriva dalla portata dei nostri dati di pre-addestramento, dalla diversità dei prompt e degli LLM utilizzati per la generazione di dati sintetici e dall'efficienza dei dati ottenuta grazie al nostro approccio di apprendimento attivo e di hard negative mining.
Inoltre, non solo puntiamo a ottenere ottime prestazioni fuori distribuzione, ma vogliamo anche assicurarci che il maggior numero possibile di LLM comuni sia il più possibile in distribuzione. Pertanto, abbiamo creato una solida pipeline automatizzata per estrarre i dati dai modelli più recenti, in modo da poter iniziare l'addestramento sui nuovi LLM non appena vengono rilasciati e rimanere aggiornati. Riteniamo che non si tratti di un compromesso tra il bilanciamento delle prestazioni su modelli diversi: ogni volta che introduciamo un nuovo LLM nel set di addestramento, la generalizzazione del modello migliora.
Con il nostro sistema attuale, non stiamo riscontrando che, con il miglioramento dei modelli, questi diventino più difficili da rilevare. In molti casi, il modello di nuova generazione è in realtà più facile da rilevare. Ad esempio, abbiamo riscontrato una maggiore accuratezza nel rilevare Claude 3 rispetto a Claude 2 al momento del suo rilascio.
Nella nostra recente serie di post sul blog, abbiamo descritto cos'è un humanizer AI e abbiamo anche pubblicato un modello con prestazioni notevolmente migliorate sul testo AI umanizzato. Siamo lieti di constatare che una terza parte ha già convalidato le nostre affermazioni con un set di dati di articoli o1-pro umanizzati.
Sul testo umanizzato o1-pro, raggiungiamo un'accuratezza del 96,7%, mentre il secondo miglior modello automatizzato è in grado di rilevare solo il 46,7% del testo umanizzato.
Siamo anche accurati al 100% sul testo GPT-4o che è stato parafrasato frase per frase.
Siamo entusiasti di vedere le ottime prestazioni di Pangram in uno studio indipendente sulle capacità di rilevamento dell'IA. Siamo sempre lieti di sostenere la ricerca accademica e forniamo libero accesso a tutti gli studiosi che desiderano studiare il nostro rilevatore.
Oltre al benchmarking delle prestazioni dei rilevatori automatici, siamo entusiasti di vedere ricerche che iniziano ad affrontare anche la spiegabilità e l'interpretabilità del rilevamento dell'IA: non solo se qualcosa è scritto dall'IA, ma anche perché. Non vediamo l'ora di scrivere ulteriori articoli su come questi risultati possano aiutare insegnanti ed educatori a individuare a occhio nudo i testi generati dall'IA e su come intendiamo integrare ulteriormente questa ricerca in strumenti di rilevamento automatico più spiegabili.
Per ulteriori informazioni, visitate il nostro sito web pangram.com o contattateci all'indirizzo info@pangram.com.
