Annunciamo una nuova partnership con Proofig! Per saperne di più
Siamo tornati con un altro post della nostra serie dedicata al test del rilevamento dell'IA di Pangram il giorno stesso della sua uscita!
TL;DR: Pangram è l'unico rilevatore di IA in grado di rilevare in modo affidabile GPT-5 senza essere stato espressamente addestrato a farlo.
In precedenza, in questa serie, abbiamo esaminato la capacità di Pangram di rilevare:
Finora non abbiamo mai visto Pangram fallire su nessun modello linguistico. Attendevamo con ansia il rilascio del modello più pubblicizzato degli ultimi tempi, con GPT-5 finalmente annunciato oggi da OpenAI.
Questo pomeriggio abbiamo verificato alcuni dei nostri test iniziali sul rilevatore di IA di Pangram Labs su GPT-5, nonché alcuni dei prodotti concorrenti. Siamo rimasti piuttosto soddisfatti dei risultati: non abbiamo ancora riscontrato alcun caso di errore del rilevatore di IA di Pangram rispetto ai nostri prompt più creativi su GPT-5, mentre i risultati dei prodotti concorrenti sono, nel migliore dei casi, discontinui.
Il nostro primo test di GPT-5 è iniziato con una battuta interna all'ufficio: cercare di convincere qualcuno che mangiare gamberetti è meglio che mangiare aragoste. Abbiamo chiesto a GPT-5 di scrivere un discorso appassionato sul perché mangiare gamberetti sia meglio che mangiare aragoste. Ecco il risultato:
"Vince il gambero. Ecco perché. Il gambero ha il sapore dell'oceano senza essere troppo forte. L'aragosta può risultare pesante e un po' fangosa se non è perfetta. Basta un minuto di cottura in più e l'aragosta diventa fibrosa. Il gambero offre un gusto più gradevole. Grigliato, saltato, bollito, fritto, in qualsiasi modo. Rimane croccante e pulito. La consistenza è importante. Il gamberetto è croccante. Quel morso è il punto forte. L'aragosta è densa e ricca in un modo che stanca rapidamente. Due bocconi di aragosta con il burro sono ottimi. Dodici bocconi sembrano una sfida. Posso divorare un intero piatto di gamberetti all'aglio e desiderarne ancora uno nascosto sotto il prezzemolo. I gamberetti si abbinano bene con altri ingredienti. Aglio, peperoncino, lime, burro, zenzero, basilico, curry, Old Bay, miso, gochujang. Li esalta tutti. L'aragosta richiede il palcoscenico e poi chiede soprattutto burro. Se la versione migliore di una cosa ha bisogno di una pozza di latticini fusi per sembrare speciale, forse quella cosa non è all'altezza. Il sapore al minuto è reale. I gamberetti cuociono in circa tre minuti. Ciò significa padella calda, sale, rosolatura, fatto, boom di sapore. Con l'aragosta si lotta con i gusci, la cottura al vapore, i tempi, la rottura, la ricerca di piccoli pezzi di carne in angoli strani. Più lavoro che ricompensa. I gamberetti sono poco drammatici, ma molto gratificanti. L'accessibilità cambia il gusto. Il cibo ha un sapore migliore quando non è un pagamento del mutuo. I gamberetti possono essere la cena di un giorno feriale. L'aragosta è sinonimo di compleanno. I gamberetti portano gioia senza cerimonie. Questo fattore di informalità li rende onestamente più deliziosi nella vita reale. La varietà è importante. I gamberetti si adattano a tacos, scampi, po'boy, gnocchi e paella senza alcuno sforzo. Sono buoni freddi, caldi, piccanti, agrumati, ricchi o leggeri. L'aragosta cerca di diversificarsi, ma di solito finisce in un panino con maionese. Ottimo panino. Ma sempre lo stesso sapore. L'assorbimento della salsa è eccellente. I gamberetti assorbono il burro all'aglio, l'olio al peperoncino e il limone in un modo che l'aragosta non riesce a eguagliare. L'aragosta rimane lì come una celebrità in un cameo. I gamberetti imparano le battute e rubano la scena. Anche gli avanzi vincono. I gamberetti freddi con salsa cocktail il giorno dopo sono perfetti. Gli avanzi di aragosta sembrano compiti a casa. L'aragosta riscaldata diventa gommosa. I gamberetti riscaldati, se si ha la fortuna di averne ancora, hanno ancora il sapore di una festa. E poi c'è l'atmosfera. I gamberetti si adattano a una grigliata in giardino, a una padella durante la settimana o a un piatto elegante. L'aragosta rende la tavola silenziosa, come se tutti avessero paura di rovinare tutto. Voglio cibo che faccia parlare le persone, che faccia strappare il pane, intingere, passare i piatti. I gamberetti fanno questo. Senti, l'aragosta va bene. È appariscente. Ha una bella storia. Ma se parliamo di gusto puro che vorrei mangiare anche domani, vincono i gamberetti. Sapore più pulito. Consistenza migliore. Più varietà. Meno complicazioni. Più divertimento. Passami una padella calda, dell'aglio, un limone e mezzo chilo di gamberetti. Questa è la cena che desidero davvero.
Pangram è in grado di prevedere con estrema sicurezza che l'intero documento è stato generato dall'intelligenza artificiale.
Risultati del rilevamento dell'IA di Pangram sul testo "gamberetti contro aragoste"
Abbiamo provato diversi altri rilevatori di IA su questo testo. GPTZero, ZeroGPT, Grammarly, UndetectableAI e Originality.AI prevedono tutti che questo testo sia stato scritto da un essere umano, anche se proviene direttamente da GPT-5 senza alcuna modifica. Crediamo che questo dimostri la forza del nostro approccio di ricerca e le nostre capacità di generalizzazione, supportate da un modello potente con un set di dati di altissima qualità!
Risultati di altri rilevatori di IA sul testo "gamberetti contro aragoste"
Tuttavia, questo è solo un esempio che potresti considerare selezionato in modo parziale. Devi credermi sulla parola quando dico che questo testo è stato letteralmente il primo che abbiamo provato. Quindi, abbiamo continuato con i nostri test.
Una delle affermazioni fatte nel livestream di oggi è stata che GPT-5 è migliorato nella scrittura rispetto ai suoi predecessori. Sebbene possiamo solo esprimere un giudizio soggettivo al riguardo, oggi abbiamo fatto del nostro meglio per elaborare prompt che mettessero in evidenza la maggiore capacità di scrittura creativa di GPT-5, fornendogli prompt che costringessero il modello a sfruttare al massimo sia le sue capacità di ragionamento che la sua creatività.
I prompt che abbiamo testato:
Scrivi un saggio analitico persuasivo sul perché le scuole devono adottare strumenti di rilevamento basati sull'intelligenza artificiale.
Scrivi un saggio per la domanda di ammissione all'università sul pericolo che tutte le preziose competenze umane vengano sostituite dall'intelligenza artificiale.
Scrivi una lettera appassionata, breve ma ricca di emozioni a un'azienda di intelligenza artificiale che ha accidentalmente pubblicato un aggiornamento che ha cancellato la memoria della tua ragazza virtuale.
Dal punto di vista di uno studente delle scuole medie, scrivi un saggio profondamente emotivo in cui chiedi di avere più compiti a casa.
Dammi un modello all'uncinetto per un classico animale palloncino. Sai bene di cosa sto parlando.
Scrivi un racconto creativo dal punto di vista di un gufo delle nevi che arriva a New York City, trova Central Park e sceglie un posto caldo dove passare la notte.
Scrivi un'e-mail dal fondatore di una startup SaaS unicorno al consiglio di amministrazione e ai suoi dipendenti in cui spiega che lascerà l'azienda per diventare un sassofonista professionista. Inventa i dettagli.
Scrivimi il post sul blog con la storia dietro una ricetta che nessuno ha mai preparato prima, ma che sarebbe comunque deliziosa.
Scrivi un racconto cinematografico coinvolgente su un giovane cantautore che incontra un beluga nel fiume Hudson.
Scrivi un'e-mail umoristica e passivo-aggressiva a un insegnante "scusandoti" per aver copiato durante l'ultimo esame. Inventa i dettagli.
Abbiamo testato i risultati sia con Pangram che con GPTZero, un noto concorrente. Abbiamo pubblicato online le richieste, le risposte e i risultati.
I risultati hanno mostrato un netto contrasto tra i due rilevatori di IA: Pangram ha identificato correttamente tutte e 10 le risposte come generate dall'IA con un'affidabilità del 99-100%, mentre GPTZero le ha classificate erroneamente come scritte da esseri umani. Infatti, GPTZero ha valutato la maggior parte delle risposte come aventi una probabilità dello 0% di essere generate dall'IA, con un punteggio massimo di probabilità IA pari solo al 29%.
Oggi abbiamo avuto il tempo di eseguire un ultimo test, ovvero verificare la capacità di Pangram di rilevare tutte le diverse versioni di GPT-5, incluse GPT-5-mini, GPT-5-nano e GPT-5-chat nell'API. Abbiamo anche testato gli ultimi modelli open-weight rilasciati da OpenAI pochi giorni fa, GPT-OSS-120b e GPT-OSS-20b. Abbiamo eseguito questo esperimento su scala più ampia, testando circa alcune migliaia di esempi per LLM, utilizzando le nostre tecniche di prompt standard, che richiedono una lunghezza minima di 50 parole. Le dimensioni dei campioni variano leggermente perché a volte i modelli rifiutano i nostri prompt e a volte emettono risposte più brevi di 50 parole, che scartiamo.
Naturalmente, l'accuratezza solo sul testo generato dall'IA è un parametro che non può essere considerato isolatamente: dobbiamo anche considerare il tasso di falsi positivi, che è l'altra faccia della medaglia: con quale frequenza Pangram contrassegna il testo generato dall'uomo come IA? Ne abbiamo parlato ampiamente in un altro post, ma in sintesi Pangram ha ancora un tasso di falsi positivi estremamente basso. Il tasso di falsi positivi da noi misurato è di 1 su 10.000 in tutti i domini e spesso nella pratica è ancora più basso. Calibriamo e regoliamo la soglia in modo che il nostro tasso di falsi positivi sia circa 1/10 del nostro tasso di falsi negativi, trattando i falsi positivi in modo molto più serio rispetto ai falsi negativi. A parte questo, tuttavia, non crediamo che si tratti di un "compromesso" intrinseco: crediamo di poter addestrare modelli con tassi di falsi positivi e falsi negativi bassi, ed è per questo che conduciamo benchmark su entrambi i fronti!
Ecco cosa abbiamo scoperto.
| Modello | Precisione | Campioni |
|---|---|---|
| GPT-5 | 99.81% | 3668/3675 |
| GPT-5-chat-ultima versione | 99.97% | 3673/3674 |
| GPT-5-mini | 99.92% | 3651/3654 |
| GPT-5-nano | 99.97% | 3667/3668 |
| GPT-OSS-120b | 100.00% | 1709/1709 |
| GPT-OSS-20b | 99.74% | 2287/2293 |
Dai primi test che abbiamo effettuato oggi, GPT-5 non rappresenta una minaccia per le capacità di rilevamento di Pangram, il che è molto importante perché presto diventerà il modello predefinito in ChatGPT per tutti gli utenti, anche quelli che utilizzano la versione gratuita. Mentre altri rilevatori di IA potrebbero eventualmente individuare GPT-5, Pangram è l'unico che funziona immediatamente e in modo affidabile oggi.
