Annunciamo una nuova partnership con Proofig! Per saperne di più
Il mercato della rilevazione dell'IA è oggi costituito da diversi grandi operatori. Forse ne avete già sentito parlare: Pangram, GPTZero, Turnitin, ZeroGPT e altri ancora.
Molte di queste aziende aggiornano regolarmente i propri modelli e pubblicano i dati relativi alle loro prestazioni. Recentemente, GPTZero ha lanciato un aggiornamento estivo dei modelli e ha pubblicato nuovi dati relativi alle loro prestazioni su una serie di nuovi modelli. In questo post del blog, confronteremo le prestazioni del nuovo modello di GPTZero con il rilevamento dell'IA di Pangram, inclusi gli ultimi modelli GPT-5.
| Modello | Tasso di rilevamento dei pangrammi | Tasso di rilevamento GPTZero | Rilevatore migliore |
|---|---|---|---|
| GPT-5 | 99.81% | 95.0% | Pangram |
| GPT-5-chat-ultima versione | 99.97% | Non testato | N/A |
| GPT-5-mini | 99.92% | 92.2% | Pangram |
| GPT-5-nano | 99.97% | 96.1% | Pangram |
| GPT-OSS-120b | 100.00% | Non testato | N/A |
| GPT-OSS-20b | 99.74% | Non testato | N/A |
| GPT4.1 | 99.48% | 96.8% | Pangram |
| GPT4.1-mini | 99.94% | 98.7% | Pangram |
| o3 | 99.86% | 89.9% | Pangram |
| o3-mini | 100.00% | 98.4% | Pangram |
| Gemini 2.5 Pro | 99.91% | 95.7% | Pangram |
| Gemini 2.5 Flash | 99.75% | 98.2% | Pangram |
| Claude Sonetto 4 | 99.91% | 99.1% | Pangram |
Nota: GPTZero non rende pubblici i propri set di dati di valutazione interna, quindi questi numeri non provengono dagli stessi identici documenti. Inoltre, GPTZero non rende noto il numero di documenti su cui effettua i test, quindi non è possibile confrontare nemmeno la quantità. Tuttavia, per quanto riguarda i numeri relativi alle prestazioni di Pangram, abbiamo valutato migliaia di documenti per ciascun modello, nonché un'ampia varietà di domini e schemi di prompt per simulare l'uso nel mondo reale.
Inoltre, l'accuratezza di Pangram non si limita a segnalare la maggior parte dei documenti generati dall'IA. Pangram è anche leader di mercato nel mantenere bassi i tassi di falsi positivi. Per noi è una priorità fondamentale non segnalare come generati dall'IA i documenti scritti da esseri umani. Di seguito è riportata la differenza tra i tassi di falsi positivi segnalati da Pangram e GPTZero:
| Pangram | GPTZero | |
|---|---|---|
| Tasso di falsi positivi (%) | 0.01% | 1% |
| Tasso di falsi positivi (#) | ~1 su 10.000 documenti | ~1 documento su 100 |
Post sul blog relativo al tasso di falsi positivi di GPTZero
Qui vediamo che le prestazioni di GPTZero riportano un tasso di falsi positivi (FPR) dell'1%.
Pangram e GPTZero si sono anche confrontati in articoli di ricerca sull'IA sottoposti a revisione paritaria. Ciò è ben rappresentato dal recente studio dell'Università del Maryland intitolato "Le persone che utilizzano frequentemente ChatGPT per attività di scrittura sono in grado di individuare con precisione e sicurezza i testi generati dall'IA". Questo studio ha esaminato la capacità di annotatori esperti umani di classificare la differenza tra testi generati dall'uomo e testi generati dall'IA.
Nell'ambito dello studio, gli annotatori umani sono stati confrontati con rilevatori disponibili in commercio e open source. Pangram ha ottenuto risultati migliori rispetto a ciascun rilevatore umano individuale, nonché rispetto a tutte le alternative commerciali, compreso GPTZero.
| GPT-4o | Claude | |
|---|---|---|
| Pangram | 100% | 100% |
| GPTZero | 100% | 97.6% |
| Annotatore 1 | 96.7% | 100% |
| Annotatore 2 | 96.7% | 100% |
| Annotatore 3 | 86.7% | 80% |
| Annotatore 4 | 90.0% | 96.7% |
| Annotatore 5 | 93.3% | 93.3% |
Le differenze tra il modello di punta di Pangram e GPTZero non finiscono qui. Entrambi i modelli sono "multilingue", il che significa che sono in grado di rilevare l'IA in più lingue oltre all'inglese. Pangram è multilingue in tutte le 20 lingue più diffuse su Internet. GPTZero supporta l'inglese, il francese e lo spagnolo. Ecco le lingue in cui è stato testato ciascun modello:
| Lingua | Tasso di falsi positivi Pangram (FPR) | Tasso di falsi positivi (FPR) di GPTZero | Tasso di rilevamento Pangram AI | Tasso di rilevamento dell'IA GPTZero |
|---|---|---|---|---|
| Spagnolo | 0.00% | 5.6% | 100.0% | 96.4% |
| Francese | 0.00% | 3.1% | 100.0% | 93.1% |
| Arabo | 0.10% | Non testato | 100.0% | Non testato |
| Ceco | 0.00% | Non testato | 99.89% | Non testato |
| Tedesco | 0.00% | Non testato | 99.68% | Non testato |
| greco | 0.00% | Non testato | 99.79% | Non testato |
| persiano | 0.00% | Non testato | 100.0% | Non testato |
| Hindi | 0.00% | Non testato | 99.58% | Non testato |
| Ungherese | 0.10% | Non testato | 99.05% | Non testato |
| italiano | 0.00% | Non testato | 100.0% | Non testato |
| giapponese | 0.00% | Non testato | 100.0% | Non testato |
| Olandese | 0.10% | Non testato | 100.0% | Non testato |
| Polacco | 0.00% | Non testato | 100.0% | Non testato |
| Portoghese | 0.00% | Non testato | 100.0% | Non testato |
| rumeno | 0.10% | Non testato | 100.0% | Non testato |
| russo | 0.00% | Non testato | 100.0% | Non testato |
| Svedese | 0.00% | Non testato | 99.89% | Non testato |
| turco | 0.00% | Non testato | 99.79% | Non testato |
| ucraino | 0.00% | Non testato | 99.89% | Non testato |
| urdu | 0.00% | Non testato | 98.84% | Non testato |
| Vietnamita | 0.00% | Non testato | 99.89% | Non testato |
| cinese | 0.00% | Non testato | 99.89% | Non testato |
Per ulteriori informazioni sulle prestazioni di Pangram con testi multilingue, consulta questo post sul blog.
Inoltre, entrambi i modelli sono stati addestrati prestando particolare attenzione alle prestazioni ESL, poiché è risaputo che i rilevatori di IA potrebbero essere influenzati da pregiudizi nei confronti di chi non è madrelingua inglese. Sia GPTZero che Pangram hanno pubblicato risultati specifici sui testi ESL. Di seguito è possibile vedere come si posizionano:
| Tasso di falsi positivi | Dimensione del campione | |
|---|---|---|
| Pangram | 0.032% | 25,021 |
| GPTZero | 1.1% | 91 |
Per saperne di più sull'approccio di Pangram ai testi ESL, dai un'occhiata a questo post sul blog https://www.pangram.com/blog/how-accurate-is-pangram-ai-detection-on-esl
Un altro motivo di preoccupazione per chi opera nel mercato del rilevamento dell'IA è la performance su modelli non ancora rilasciati. Con il continuo espandersi della guerra dell'IA, grandi laboratori di IA e piccole start-up rilasciano regolarmente modelli importanti. È importante che una soluzione di rilevamento dell'IA continui a fornire risultati accurati su modelli che potrebbero non essere stati addestrati direttamente.
Il recente rilascio di GPT-5 ha fornito un'ottima opportunità per scoprirlo! A poche ore dal rilascio del nuovo modello, il team di Pangram ha testato le prestazioni di GPTZero e Pangram su una varietà di tipi di prompt. Ecco come hanno fatto:
| Pangram | GPTZero | |
|---|---|---|
| Documento 1 | 100% | 2% |
| Documento 2 | 100% | 0% |
| Documento 3 | 100% | 0% |
| Documento 4 | 100% | 0% |
| Documento 5 | 100% | 9% |
| Documento 6 | 99% | 0% |
| Documento 7 | 100% | 0% |
| Documento 8 | 100% | 0% |
| Documento 9 | 100% | 29% |
| Documento 10 | 100% | 0% |
| Documento 11 | 100% | 10% |
Nota: GPTZero ha successivamente rilasciato un aggiornamento del modello che promette prestazioni migliori su GPT-5! Per maggiori dettagli sul nostro confronto originale, consulta questo post sul blog. Inoltre, invitiamo gli utenti a completare i propri test per confrontare le prestazioni in qualsiasi momento.
Alla fine, Pangram continua a essere la scelta più solida e affidabile per rilevare i contenuti generati dall'intelligenza artificiale. Che le tue esigenze riguardino l'istruzione, l'editoria, la moderazione dei contenuti o qualcosa di ancora più specifico, siamo qui per offrirti un rilevamento accurato ed equo dell'intelligenza artificiale. Scopri di più sul nostro blog o contattaci all'indirizzo info@pangram.com.
