Annunciamo una nuova partnership con Proofig! Per saperne di più

Aggiornamento testo pangram: GPT-4o, Claude 3, LLaMA 3

Bradley Emi
22 maggio 2024

Foto di Google DeepMind.

Oggi siamo lieti di mostrare la nostra capacità di adattarci rapidamente ai nuovi LLM presenti sul mercato, rilasciando un aggiornamento del nostro modello che raggiunge una precisione quasi perfetta nel rilevare i testi scritti dall'IA da GPT-4o, Claude 3 e LLaMA 3.

TL;DR:

  • Abbiamo rilasciato una nuova versione di Pangram Text che migliora le prestazioni su GPT-4o, Claude 3 e LLaMA 3.
  • La nostra infrastruttura è predisposta per acquisire rapidamente grandi quantità di testo AI dai nuovi modelli non appena questi diventano disponibili al pubblico.
  • Abbiamo riscontrato che, man mano che le prestazioni di tutti questi nuovi modelli convergono verso quelle di GPT-4, anche lo stile utilizzato da ciascuno di essi inizia ad assomigliarsi.

Risultati

Il nostro modello più recente era piuttosto efficace nel rilevare l'output dei nuovi modelli, anche senza averne visto alcun esempio nel set di addestramento. Tuttavia, non ci accontentiamo di un risultato semplicemente "piuttosto buono": vogliamo essere certi di spingere continuamente i confini di ciò che è possibile con il rilevamento tramite IA e ottenere la massima precisione possibile per i nostri clienti.

Per testare le nostre prestazioni sui modelli linguistici di nuova generazione, abbiamo rinnovato il nostro set di valutazione composto da 25.000 esempi di testi umani difficili da classificare e testi generati dall'IA provenienti da un panel di modelli linguistici. Circa il 40% di questo nuovo set di valutazione è costituito da un'ampia varietà di testi generati dall'IA provenienti da GPT-4o, Claude 3 e LLaMA 3, che coprono diversi ambiti testuali, tra cui notizie, recensioni, istruzione e altro ancora.

Utilizziamo tutte le versioni dei nuovi modelli quando disponibili: ad esempio, campioniamo in modo uniforme dalle versioni Opus, Sonnet e Haiku di Claude 3.

Dopo aver aggiornato il nostro set di dati di addestramento per incorporare gli ultimi LLM, abbiamo riscontrato che stiamo nuovamente ottenendo un'accuratezza quasi perfetta sui testi generati dai modelli linguistici di ultima generazione.

LLMTesto pangramico Precisione di marzoTesto pangramico Maggio AccuratezzaMiglioramento percentuale
Tutti99.54%99.84%+0.30%
GPT-4o99.78%100%+0.22%
Claude 399.12%99.76%+0.64%
LLaMA 399.58%99.97%+0.39%

Oltre a migliorare le prestazioni sui nuovi modelli, abbiamo riscontrato che l'inclusione dei dati di addestramento dell'ultima generazione di modelli migliora leggermente le prestazioni su diversi modelli precedenti.

Abbiamo riscontrato che, pur non introducendo regressioni nel nostro vecchio set di valutazione del modello, abbiamo effettivamente migliorato diversi casi rispetto al rilevamento di GPT-3.5 e GPT-4 (regolare). Nello specifico, abbiamo riscontrato che 8 casi GPT-3.5 precedentemente falliti dal modello ora vengono superati, mentre 13 casi GPT-4 precedentemente falliti dal modello ora vengono superati. Concludiamo quindi che la maggiore capacità del nostro modello di rilevare GPT-4o, Claude 3 e LLaMA 3 non comporta alcun costo in termini di capacità di rilevare i modelli più vecchi.

Rimanere all'avanguardia

Eravamo consapevoli fin dall'inizio che il panorama degli LLM sarebbe cambiato rapidamente, quindi abbiamo progettato l'architettura del nostro sistema tenendo conto di questo aspetto. I nostri sistemi sono costruiti in modo da poter rigenerare i dati e iniziare ad addestrare un nuovo modello entro poche ore dalla disponibilità pubblica di una nuova API.

Quando viene rilasciato un nuovo modello, generare un nuovo set di dati e riqualificare il modello è semplice come modificare una configurazione. Disponiamo di una libreria standard di modelli di prompt progettati per essere inseriti negli LLM al fine di produrre testi simili a quelli umani, vicini ma non identici alla parte umana del nostro set di dati. Descriviamo in dettaglio questo processo, denominato Hard Negative Mining with Synthetic Mirrors, nella nostra relazione tecnica.

La tempistica per il rilascio di questo nuovo modello era la seguente:

13 maggio: GPT-4o è stato rilasciato e reso disponibile nell'API OpenAI. 14 maggio: la pipeline del set di dati è stata aggiornata e sono stati creati nuovi set di addestramento e valutazione. 15-16 maggio: il modello di rilevamento dell'IA è stato addestrato utilizzando i nuovi set di dati. 17 maggio: sono stati eseguiti controlli di qualità e di integrità e il modello è stato rilasciato.

L'infrastruttura che abbiamo creato ci permette di adattarci velocemente, includendo il testo dei nuovi modelli nel sistema di rilevamento della produzione in appena una settimana.

Rendimenti decrescenti?

Man mano che i nuovi modelli migliorano, diventano più difficili da individuare, giusto? Non abbiamo ancora trovato prove a sostegno di questa tesi allettante ma, in definitiva, errata.

Osservando i risultati, abbiamo riscontrato che i modelli più efficaci, grazie al loro stile più peculiare, sono in realtà più facili da individuare rispetto a quelli meno efficaci. Ad esempio, abbiamo scoperto che il nostro vecchio modello era più efficace nel rilevare Claude Opus rispetto a Sonnet e Haiku.

Come possiamo vedere dalla classifica LMSYS, molti modelli di base stanno convergendo asintoticamente al livello di GPT-4, ma nessun modello è ancora riuscito a superarlo in modo convincente con un margine sostanziale. Guardando la situazione da una prospettiva più ampia, se diverse aziende produttrici di modelli di base adottano la stessa architettura basata sull'attenzione e la addestrano su Internet, non sorprende che il linguaggio prodotto da tutti i modelli finisca per essere incredibilmente simile tra loro. Chi interagisce regolarmente con i modelli linguistici capirà immediatamente cosa intendiamo dire.

A livello osservativo, continuiamo a riscontrare che gli LLM, quando viene loro richiesto di scrivere in modo creativo e autentico, ad esempio un saggio di opinione, una recensione o un racconto breve creativo, producono ancora contenuti banali e privi di fantasia. Riteniamo che ciò sia fondamentalmente una proprietà dell'obiettivo di ottimizzazione che consiste nel prevedere completamenti ad alta probabilità, evitando pensieri e idee originali fuori dalla distribuzione.

Apprezziamo gli scritti originali dei nostri simili perché possono offrirci una nuova prospettiva o un modo diverso di pensare, non perché rappresentano ciò che una persona direbbe normalmente. Finché questo valore rimarrà valido, ci sarà sempre bisogno di un sistema di rilevamento dell'IA e ci sarà sempre un modo per risolverlo.

Iscriviti alla nostra newsletter
Condividiamo aggiornamenti mensili sulla nostra ricerca nel campo del rilevamento dell'intelligenza artificiale.