Annunciamo una nuova partnership con Proofig! Per saperne di più

Uno studio condotto da terzi dimostra che Pangram è il rilevatore di IA più affidabile

Bradley Emi
30 ottobre 2024

Uno studio condotto da terzi dimostra che Pangram è il rilevatore di IA più affidabile

I ricercatori dell'Università di Houston, dell'Università della California di Berkeley, dell'Università della California di Irvine e della startup Esperanto AI hanno scoperto che Pangram è il rilevatore di testo AI più affidabile tra un'ampia varietà di metodi sia commerciali che open source. Nell'articolo intitolato "Esperanto: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination" (Esperanto: valutazione delle frasi sintetizzate per migliorare l'affidabilità del rilevamento AI per l'origine del testo), i ricercatori hanno studiato gli effetti della traduzione linguistica sulla capacità dei rilevatori AI.

Sfruttare i rilevatori di IA utilizzando i traduttori

È risaputo che, per eludere i programmi di rilevamento dell'IA, è possibile tradurre un testo generato dall'IA in una lingua straniera tramite Google Translate e poi ritradurlo in inglese. In Pangram, chiamiamo internamente questo attacco "doppia traduzione", mentre i ricercatori lo definiscono "backtranslation". Ecco un esempio di doppia traduzione. Chiediamo a ChatGPT di scrivere un testo per noi. Prima traduciamo il testo in giapponese, poi lo ritraduciamo in inglese. Notiamo che alcune frasi sono cambiate a causa del fatto che il software di traduzione non è perfetto e spesso ci sono diversi modi per dire la stessa cosa. Questo ha un effetto simile a quello di uno strumento di parafrasi come Quillbot.

Testo generato da ChatGPT Testo tradotto due volte Un esempio di doppia traduzione

Molti dei nostri concorrenti non sono in grado di contrastare questo exploit. Quello sopra è uno dei rilevatori di IA più comuni utilizzati sul mercato. Vediamo che il modello è in grado di rilevare l'IA direttamente da ChatGPT, ma una volta sottoposto a doppia traduzione, prevede solo il 15% di IA.

Risultati di GPTZero Uno strumento concorrente molto diffuso classifica correttamente il testo originale generato dall'IA, ma classifica erroneamente il testo tradotto due volte come scritto da un essere umano.

Pangram, tuttavia, è in grado di prevedere sia il testo originale di ChatGPT che il testo tradotto due volte come AI al 99,99%. Non solo siamo in grado di prevedere che si tratta di un testo generato dall'intelligenza artificiale, ma siamo anche in grado di prevedere con certezza che la fonte originale era GPT-4. I ricercatori hanno deciso di studiare questo fenomeno in termini generali e su larga scala.

Risultati Pangram Pangram identifica correttamente sia il testo originale che quello tradotto due volte come generato dall'intelligenza artificiale.

Studio dell'effetto della retrotraduzione su 720.000 documenti

Un solo esempio non è sufficiente per dimostrare che il nostro rilevatore è affidabile e gli altri no. Nella ricerca, i ricercatori hanno raccolto migliaia di articoli di giornale, abstract di articoli scientifici, post su Reddit e recensioni di prodotti che sono stati confermati come scritti da esseri umani. Hanno quindi generato diversi esempi di IA utilizzando GPT-3.5-Turbo, LLaMA 3, Mistral, Phi3 e Yi.

Nel complesso, anche prima di ricorrere a un attacco di traduzione, molti dei metodi open source e dei rilevatori commerciali sono in realtà completamente inefficaci.

In primo luogo, è stata scelta una soglia: ciò significa selezionare la percentuale limite al di sopra della quale consideriamo un documento AI. La maggior parte dei rilevatori AI fornisce una percentuale come risultato finale. Per mettere tutti i rilevatori su un piano di parità, le soglie sono state scelte in modo tale che ogni modello abbia un tasso di falsi positivi dell'1%. Quindi, l'accuratezza del rilevatore può essere confrontata come frazione dei veri positivi: quanti esempi AI può rilevare ciascun rilevatore a quella soglia?

Molti degli altri metodi studiati nell'articolo non riescono affatto a rilevare i contenuti generati dall'IA. Ad esempio, ZeroGPT e GPTZero non riescono nemmeno a raggiungere un tasso di falsi positivi dell'1% con nessuna soglia in alcuni domini, mentre articoli accademici molto citati come RADAR e LLMDet hanno un'accuratezza inferiore al 50%.

La metrica proposta per valutare le prestazioni consiste nel misurare il TPR @ 1% FPR: ciò significa che, dato un tasso di falsi positivi costante dell'1%, con quale frequenza il modello è in grado di rilevare il testo generato dall'IA? ZeroGPT non è in grado di raggiungere nemmeno un tasso di falsi positivi dell'1% con qualsiasi soglia nella maggior parte dei domini, mentre articoli accademici ben citati come RADAR e LLMDet raggiungono valori ben inferiori al 50% su questa metrica.

Nel frattempo, Pangram raggiunge un richiamo superiore al 96% su tutti i domini con un FPR dell'1% e raggiunge addirittura l'85% sul difficile set di dati delle recensioni, che contiene recensioni lunghe solo 40-50 parole (ben al di sotto della soglia di parole consigliata per rilevare l'IA in ambito commerciale).

Dopo un doppio attacco di traduzione, molti dei rilevatori falliscono completamente. GPTZero, ad esempio, passa dal 97% al solo 42% nel dominio delle notizie e dal 65% al 9% nel dominio delle recensioni. I ricercatori concludono: "I risultati di GPTZero e ZeroGPT indicano una mancanza di robustezza nei confronti delle tecniche di retrotraduzione... Pangram mostra un certo grado di robustezza, specialmente sui testi più lunghi".

I risultati completi sono riportati qui di seguito. Pangram mostra prestazioni superiori in tutte le categorie.

Tabella dei risultati che mette a confronto i rilevatori di IA Tabella dei risultati tratta dall'articolo sull'esperanto che dimostra la solidità di Pangram

Conclusione

Questa ricerca conferma ulteriormente la nostra affermazione secondo cui Pangram è l'unico software di rilevamento dell'IA attualmente disponibile sul mercato che funziona in modo sufficientemente affidabile da poter essere utilizzato in contesti accademici e commerciali e che non può essere aggirato con trucchi come la doppia traduzione.

Non si tratta di un caso o di una coincidenza. La robustezza di Pangram è la prova di un modello potente che sa generalizzare ed è supportato da grandi set di dati e dal nostro approccio mirato di apprendimento attivo. Sebbene chiunque possa creare uno strumento di rilevamento AI che funzioni in alcuni casi o anche nella maggior parte dei casi, il nostro approccio scalabile è l'unico modo per ottenere un'accuratezza affidabile e costante che non venga completamente compromessa quando il testo viene modificato o alterato.

Lavoriamo costantemente per migliorare le prestazioni e la robustezza del nostro modello di rilevamento basato sull'intelligenza artificiale. Ci teniamo aggiornati sulle ultime ricerche nel campo dell'apprendimento automatico avversario e testiamo continuamente il nostro modello contro potenziali attacchi e bypass.

Presto ulteriori approfondimenti su questo argomento!

Iscriviti alla nostra newsletter
Condividiamo aggiornamenti mensili sulla nostra ricerca nel campo del rilevamento dell'intelligenza artificiale.