Annunciamo una nuova partnership con Proofig! Per saperne di più
Il rilevamento dell'IA viene spesso descritto come una "corsa agli armamenti" tra grandi modelli linguistici, rilevatori e "umanizzatori", ovvero una classe di strumenti online che hanno lo scopo di offuscare il testo generato dall'IA e introdurre errori intenzionali affinché il testo risultante sembri scritto da un essere umano.
Noi di Pangram cerchiamo sempre di stare al passo con i tempi e di reagire ai più recenti progressi tecnologici sia nei nuovi modelli che negli umanizzatori. Questo ci permette di creare un sistema di rilevamento AI che rimane affidabile.
Nel gennaio 2025 abbiamo pubblicato un aggiornamento del nostro rapporto tecnico in cui abbiamo valutato 19 diversi strumenti di umanizzazione e parafrasi. I risultati principali sono stati:
Tuttavia, il panorama degli umanizzatori è in rapida evoluzione, quindi abbiamo voluto pubblicare i dati aggiornati sul nostro ultimo benchmark degli umanizzatori.
| Umanizzatore | Precisione |
|---|---|
| Ahrefs | 100.0% |
| aihumanizer.com | 100.0% |
| Bypassare GPT | 99.7% |
| DIPPER | 97.6% |
| Ghost AI | 100.0% |
| GPTinf | 99.2% |
| Grammarly | 100.0% |
| humanizeai.io | 93.8% |
| humanizeai.pro | 100.0% |
| Appena fatto | 93.5% |
| Quillbot | 100.0% |
| Scribbr | 99.0% |
| IA semi-umana | 100.0% |
| Smodin | 100.0% |
| StealthGPT | 95.6% |
| Surfer SEO | 100.0% |
| surgegraph.io | 100.0% |
| TwainGPT | 92.7% |
| AI non rilevabile | 90.3% |
| Writesonic AI | 98.1% |
Pangram ottiene un punteggio superiore al 90% su tutti i principali umanizzatori che abbiamo testato.
In Russell et. al., Pangram viene confrontato con GPTZero e diversi metodi open source su testi umanizzati. Il modello migliore di Pangram ha un'accuratezza del 97% sui testi umanizzati, rispetto al 46% di GPTZero, al 23% di FastDetectGPT e al 7% di Binoculars.
Prestazioni di Pangram su testi umanizzati rispetto ad altri rilevatori
Uno studio molto recente condotto da Jabarian e Imas ha scoperto che Pangram è l'unico rilevatore tra i 4 rilevatori commerciali le cui prestazioni sono robuste nei confronti degli umanizzatori:
Per i passaggi più lunghi, Pangram rileva quasi il 100% dei testi generati dall'IA. L'FNR aumenta leggermente man mano che i passaggi diventano più brevi, ma rimane comunque basso. Gli altri rilevatori sono meno efficaci contro gli umanizzatori. L'FNR per Originality.AI aumenta a circa 0,05 per i testi più lunghi, ma può raggiungere fino a 0,21 per i testi più brevi, a seconda del genere e del modello LLM. GPTZero perde in gran parte la sua capacità di rilevare il testo generato dall'IA, con punteggi FNR intorno a 0,50 e superiori nella maggior parte dei generi e dei modelli LLM. RoBERTa ottiene risultati altrettanto scarsi, con punteggi FNR elevati in tutti i casi.
Esistono diversi modi per capire a occhio che un testo è stato elaborato da un umanizzatore.
Uno dei modi più semplici per individuare un humanizer è cercare le "frasi contorte", ovvero sostituzioni di sinonimi fuori contesto volte a mascherare il plagio. Gli strumenti di riformulazione delle parole, come Grammarly e Quillbot, utilizzavano questi algoritmi di sostituzione dei sinonimi anche prima dell'avvento dell'IA per mascherare il plagio.
Esempi di frasi contorte potrebbero essere "coscienza contraffatta" invece di "intelligenza artificiale" o "pericolo al seno" invece di "cancro al seno". L'anno scorso abbiamo sentito un caso divertente in cui "Martin Luther Ruler, Jr." è apparso in un tema scritto da uno studente al posto di "Martin Luther King, Jr.".
È importante prestare attenzione all'uso di frasi contorte come unico modo per individuare un testo scritto da un'intelligenza artificiale umanizzata, poiché le frasi contorte compaiono comunemente anche nei testi scritti da persone non madrelingua inglese quando queste ultime usano in modo errato o interpretano male il significato diretto o il modo tipico in cui vengono utilizzate determinate parole.
Gli umanizzatori spesso cercano di ingannare il tokenizzatore dei rilevatori di IA aggiungendo o rimuovendo spazi. Particolarmente comune è la rimozione degli spazi tra le frasi.
Il testo generato dall'IA umanizzata presenta ancora le stesse frasi ripetitive del testo generato dall'IA non umanizzata. È particolarmente significativo che il testo provenga da un umanizzatore se la stessa frase contorta appare due volte nello stesso documento, poiché ciò dimostra che l'umanizzatore sta applicando sistematicamente le stesse sostituzioni di sinonimi.
Gli umanizzatori utilizzano tipicamente anche caratteri Unicode non standard per ingannare anche i tokenizzatori dei rilevatori di IA. Un esempio è un popolare umanizzatore che utilizza "U+2009", ovvero il carattere Unicode per lo "spazio sottile" invece dello spazio normale. Consigliamo questo sito web https://www.soscisurvey.de/tools/view-chars.php che consente di vedere tutti i caratteri non stampabili che potrebbero essere nascosti nelle stringhe copiate e incollate.
Esempio di caratteri non stampabili nel testo umanizzato
Utilizzando la nuova funzione Writing Playback di Pangram in Google Docs, è anche possibile verificare se una parte significativa del testo in un documento Google è stata copiata e incollata anziché digitata manualmente. Una spiegazione più dettagliata del rilevamento tramite IA in Google Docs è disponibile qui.
Esempio di riproduzione di scrittura che mostra copia e incolla
Ci sono diversi motivi per cui Pangram non è un rilevatore perfetto per i testi generati dall'intelligenza artificiale umanizzata.
Pangram non è disposta a scendere a compromessi sul tasso di falsi positivi. Molti dei nostri modelli interni sono in grado di rilevare gli umanizzatori con una precisione quasi perfetta, ma presentano tassi di falsi positivi più elevati. Non distribuiamo questi modelli perché per noi è più importante che i testi scritti da esseri umani non vengano mai contrassegnati come AI piuttosto che rilevare tutti i risultati degli umanizzatori.
I testi "spazzatura" di qualità estremamente bassa sono facilmente individuabili a occhio nudo. Nella maggior parte dei casi in cui Pangram non rileva output umanizzati, il testo è talmente distorto e confuso da sembrare a malapena inglese. Questi casi sono facili da individuare a occhio nudo, ma difficili da rilevare algoritmicamente perché esistono infiniti modi per produrre testi senza senso. Preferiamo escludere il testo senza senso piuttosto che cercare di individuarlo, poiché non è nemmeno possibile distinguere il testo senza senso umano da quello generato dall'umanizzatore.
Sì, il rilevamento degli umanizzatori è un'area di ricerca attiva per Pangram e speriamo di continuare a caratterizzare le proprietà di questi umanizzatori e a pubblicizzare la nostra ricerca sul rilevamento dei risultati degli umanizzatori. Se Pangram deve essere considerato uno strumento affidabile per l'integrità accademica, dobbiamo essere in grado di rilevare i testi prodotti da questi strumenti di frode, così come i testi copiati e incollati direttamente da grandi modelli linguistici.
