Annunciamo una nuova partnership con Proofig! Per saperne di più

Approfondimento sulle recensioni di Yelp

Bradley Emi
10 novembre 2023

NOTA: Abbiamo cambiato il nostro nome in Pangram Labs! Per ulteriori dettagli, consulta il nostro blog.

Noi di Checkfor.ai ci impegniamo per essere il miglior rilevatore di testi generati dall'intelligenza artificiale, al fine di promuovere la nostra missione di proteggere Internet dall'inquinamento causato dai contenuti di bassa qualità generati dall'intelligenza artificiale. Uno degli ambiti più importanti da difendere è quello delle piattaforme di recensioni degli utenti.

Le recensioni online false danneggiano sia le aziende che i consumatori, e ChatGPT ha solo reso più facile commettere frodi su larga scala.

Recensione generata da ChatGPT su Yelp

Mantenere la fiducia degli utenti nelle recensioni online è una parte importante della nostra missione presso Checkfor.ai per proteggere l'autenticità dei contenuti generati dagli utenti online.

Chi sono

Mi chiamo Bradley Emi e sono il CTO di Checkfor.ai. Ho lavorato come ricercatore nel campo dell'intelligenza artificiale a Stanford, ho realizzato modelli di produzione come scienziato ML nel team Tesla Autopilot e ho guidato un team di ricerca che ha creato una piattaforma per la progettazione di farmaci con grandi reti neurali presso Absci. Nel campo delle auto a guida autonoma e della scoperta di farmaci, un'accuratezza del 99% semplicemente non è sufficiente. Un'accuratezza del 99% potrebbe significare che 1 pedone su 100 viene investito da un veicolo autonomo o che 1 paziente su 100 subisce effetti collaterali potenzialmente letali a causa di un farmaco mal progettato.

Sebbene rilevare testi generati dall'intelligenza artificiale non sia necessariamente una questione di vita o di morte, noi di Checkfor.ai vogliamo progettare modelli e sistemi software che rispettino gli stessi standard di qualità. Il nostro rilevatore deve resistere ad attacchi ostili quali parafrasi, prompt engineering avanzato e strumenti di elusione del rilevamento come undetectable.ai. Siamo seriamente intenzionati a risolvere questo problema (ad esempio, non solo raggiungendo il 99%) e, pertanto, una delle massime priorità del nostro team di ingegneri è quella di sviluppare una piattaforma di valutazione estremamente robusta.

Filosofia di valutazione: i set di test sono test unitari

Un'azienda di sicurezza informatica Software 1.0 non commercializzerebbe mai un prodotto senza test unitari. In quanto azienda Software 2.0, abbiamo bisogno di test equivalenti ai test unitari, con la differenza che devono testare modelli di grandi dimensioni con milioni o addirittura miliardi di parametri, che possono comportarsi in modo stocastico e devono funzionare correttamente coprendo un'ampia distribuzione di casi estremi. Non possiamo raggiungere una "precisione del set di test del 99%" e considerare il lavoro concluso: abbiamo bisogno di valutazioni che testino specificamente i tipi di esempi che incontreremo nel mondo reale.

Un buon set di test risponde a domande specifiche e riduce al minimo il numero di variabili confondenti.

Esempi di domande di prova mirate e relative serie di test includono:

  • Quanto è efficace il nostro modello sulle recensioni di Yelp? Set di test composto da mille recensioni reali di Yelp e mille recensioni di Yelp generate dall'intelligenza artificiale.
  • Quanto è efficace il nostro modello sui testi parafrasati? Set di test composto da centinaia di saggi reali scritti da studenti, centinaia di saggi generati dall'intelligenza artificiale e gli stessi saggi parafrasati tramite QuillBot o Undetectable.AI.

Ci sono diversi motivi per cui non è possibile semplicemente combinare tutti gli elementi del set di test e riportare un numero.

  • Ci sono troppe variabili confondenti: non sappiamo se il test sia stato superato o meno a causa della distribuzione dei dati o del modello.
  • Chiunque può gonfiare artificialmente il proprio punteggio di accuratezza semplicemente inondando il set di test con esempi facili.
  • Senza una spiegazione chiara e riproducibile su come il set di test sia stato creato in modo imparziale, non possiamo sapere se qualcuno abbia semplicemente selezionato gli esempi in cui il proprio modello ha successo e la baseline fallisce.

Ecco perché studi di benchmark come questi mancano completamente l'obiettivo. Sono poco mirati e non testano comportamenti specifici che vorremmo che il modello fosse in grado di eseguire. I set di test distorti mettono in mostra il modello quando dà il meglio di sé, non quando si trova ad affrontare esempi reali.

Un benchmark imparziale di Yelp

Un esempio di applicazione reale del rilevamento di testi generati dall'intelligenza artificiale è l'individuazione di recensioni generate dall'intelligenza artificiale su Yelp. Yelp si impegna a moderare rigorosamente la propria piattaforma di recensioni e, se si consulta il loro Rapporto sulla fiducia e la sicurezza per il 2022, è chiaro che Yelp ha molto a cuore la lotta contro le recensioni fraudolente, retribuite, incentivate o comunque disoneste.

Fortunatamente, Yelp ha anche pubblicato un eccellente set di dati open source. Abbiamo campionato in modo casuale 1000 recensioni da questo set di dati e generato 1000 recensioni sintetiche da ChatGPT, il LLM più comunemente utilizzato.

È importante sottolineare che le recensioni di ChatGPT riguardano attività commerciali reali presenti su Yelp e provenienti dal loro dataset Kaggle: in questo modo il modello non può barare adattandosi eccessivamente a dettagli quali la differenza nella distribuzione delle attività commerciali. Durante la valutazione, verifichiamo se il modello ha realmente imparato a utilizzare le caratteristiche corrette nel testo per distinguere il vero dal falso.

Utilizziamo questo set di dati per capire quali modelli di rilevamento AI sono realmente in grado di distinguere le recensioni generate da ChatGPT da quelle reali!

Accuratezza dei modelli

Il nostro parametro più semplice è l'accuratezza: quanti esempi sono stati classificati correttamente da ciascun modello?

  • Checkfor.ai: 99,85% (1997/2000)
  • Originality.AI: 96,2% (1738/1806) (nota: Originality.AI rifiuta di classificare documenti con meno di 50 parole).
  • GPTZero: 90,8% (1815/2000)

Sebbene una differenza del 99,85% rispetto al 96% possa inizialmente non sembrare significativa, se consideriamo il tasso di errore, possiamo contestualizzare meglio questi numeri.

Checkfor.ai dovrebbe fallire solo una volta ogni 666 query, mentre Originality.AI dovrebbe fallire una volta ogni 26 query e GPTZero una volta ogni 11 query. Ciò significa che il nostro tasso di errore è oltre 25 volte migliore rispetto a Originality.AI e 60 volte migliore rispetto a GPTZero.

Falsi positivi e falsi negativi

Per esaminare i falsi positivi e i falsi negativi (nel gergo dell'apprendimento automatico, considereremmo le statistiche molto simili di precisione e richiamo), possiamo esaminare la matrice di confusione: quali sono i tassi relativi di veri positivi, falsi positivi, veri negativi e falsi negativi?

Over all 2,000 examples, Checkfor.ai produces 0 false positives and 3 false negatives, exhibiting high precision and high recall. While admirably, GPTZero does not often predict false positives, with only 2 false positives, it comes at the expense of predicting 183 false negatives– an incredibly high false negative rate! We’d call this a model that exhibits high precision but low recall. Finally, Originality.AI predicts 60 false positives and 8 false negatives– and it refuses to predict a likelihood on short reviews (<50 words) — which are the hardest cases and most likely to be false positives. This high false positive rate means that this model is low precision, high recall.

Mentre nel rilevamento di testi generati dall'IA è più importante un basso tasso di falsi positivi (non vogliamo accusare ingiustamente esseri umani reali di plagio da ChatGPT), è necessario anche un basso tasso di falsi negativi: non possiamo permettere che oltre il 10-20% dei contenuti generati dall'IA sfugga al controllo.

Modello Fiducia

In definitiva, vorremmo che il nostro modello esprimesse un alto livello di affidabilità quando è chiaro che il testo è umano o scritto da ChatGPT.

Seguendo una strategia di visualizzazione simile a quella dell'eccellente articolo accademico DetectGPT di Mitchell et. al., tracciamo gli istogrammi delle previsioni del modello sia per le recensioni generate dall'IA che per quelle reali per tutti e tre i modelli. Poiché tutti e tre i modelli hanno un'accuratezza superiore al 90%, una scala logaritmica sull'asse y è la più utile per visualizzare le caratteristiche di affidabilità di ciascun modello.

In questo grafico, l'asse x rappresenta la probabilità che il modello preveda che la recensione inserita sia stata generata dall'intelligenza artificiale. L'asse y rappresenta la frequenza con cui il modello prevede quella particolare probabilità per un testo reale (barre blu) o generato dall'intelligenza artificiale (barre rosse). Osservando queste previsioni "soft", piuttosto che un semplice sì o no, vediamo che Checkfor.ai è molto più efficace nel tracciare un confine decisionale chiaro e nel fornire previsioni più affidabili rispetto a GPTZero o Originality.AI.

GPTZero tende a prevedere troppi esempi nell'intervallo di probabilità compreso tra 0,4 e 0,6, con una modalità intorno a 0,5. D'altra parte, il problema dei falsi positivi di Originality.AI diventa ancora più evidente quando si esaminano le previsioni soft. Molte recensioni reali sono molto vicine ad essere previste come generate dall'IA, anche se non superano la soglia di 0,5. Ciò rende difficile per un utente fidarsi della capacità del modello di prevedere in modo affidabile il testo generato dall'IA, poiché piccole perturbazioni alla recensione possono consentire a un avversario di aggirare il rilevatore modificando iterativamente la recensione fino a quando non si trova al di sotto della soglia di rilevamento.

Il nostro modello, invece, è solitamente molto decisivo. In genere siamo in grado di prendere decisioni con sicurezza. Per i lettori con una formazione approfondita in materia di deep learning o teoria dell'informazione, abbiamo la più bassa entropia incrociata/divergenza KL tra la distribuzione reale e quella prevista.

È indubbio che prevedere con elevata certezza che un testo sia autentico abbia un valore (vedi questa divertente immagine tratta da Twitter). Sebbene sia chiaro che questo educatore abbia interpretato erroneamente la probabilità dell'IA come una quantità di testo scritto dall'IA, quando i rilevatori non sono sicuri che un testo autentico sia realmente autentico, si crea spazio per interpretazioni errate.

https://twitter.com/rustykitty_/status/1709316764868153537

Purtroppo, dei 3 errori previsti da Checkfor.ai, due sono piuttosto certi. Il nostro rilevatore non è perfetto e stiamo lavorando attivamente alla calibrazione del modello per evitare previsioni errate così certe.

Conclusione

Stiamo rendendo open source i set di dati utilizzati per questa valutazione delle recensioni reali e false su Yelp, in modo che i modelli futuri possano utilizzare questo importante benchmark per testare l'accuratezza dei loro rilevatori.

I nostri principali punti chiave sono:

Checkfor.ai presenta un basso tasso di falsi positivi e un basso tasso di falsi negativi. Checkfor.ai è in grado di distinguere tra recensioni reali e recensioni generate dall'intelligenza artificiale non solo con elevata precisione, ma anche con elevata affidabilità. In futuro pubblicheremo altri post di questo tipo sul nostro blog e condivideremo pubblicamente le nostre valutazioni sincere sul nostro modello man mano che acquisiremo maggiori conoscenze. Restate sintonizzati e fateci sapere cosa ne pensate!

Iscriviti alla nostra newsletter
Condividiamo aggiornamenti mensili sulla nostra ricerca nel campo del rilevamento dell'intelligenza artificiale.