Annunciamo una nuova partnership con Proofig! Per saperne di più

Lo stato dell'integrità accademica e il rilevamento dell'IA nel 2025

Destino Akinode
4 dicembre 2025

Bradley Emi, CTO di Pangram Labs, ha tenuto una sessione sullo stato dell'arte del rilevamento dell'intelligenza artificiale alla conferenza ICAI.

Gli studenti utilizzano e abusano di ChatGPT. La maggior parte degli studenti utilizza regolarmente strumenti di intelligenza artificiale e ritiene che le proprie prestazioni miglioreranno grazie a questi strumenti. Anche in presenza di politiche chiare contro l'uso dell'intelligenza artificiale, è probabile che gli studenti continuino a utilizzarla.

Contrariamente a quanto si crede comunemente, l'intelligenza artificiale può essere rilevata. Il linguaggio, lo stile e le scelte semantiche possono essere individuati sia dagli esseri umani che dai software automatizzati (con una formazione adeguata).

Perché l'intelligenza artificiale suona così?

Gli LLM sono distribuzioni di probabilità che apprendono attraverso grandi quantità di dati. NON sono la media di tutti gli scritti umani. Ciò è dovuto al modo in cui vengono addestrati i modelli.

I modelli vengono addestrati in tre fasi: pre-addestramento, ottimizzazione delle istruzioni e allineamento.

Nella fase di pre-addestramento, il modello analizza i modelli statistici da un ampio set di dati. Il set di dati di addestramento contiene distorsioni che si riflettono nei modelli statistici. Ad esempio, i dati che compaiono frequentemente su Internet sono sovrarappresentati. In un articolo del Guardian, Alex Hern spiega come i lavoratori in Kenya e Nigeria siano stati sfruttati per fornire dati di addestramento per OpenAI. Le parole che questi lavoratori usavano frequentemente, come "delve" e "tapestry", sono le stesse che compaiono spesso nei testi generati dall'IA.

Nell'Instruction Tuning, il modello viene addestrato a rispondere ai prompt. Il modello impara che è meglio seguire le istruzioni piuttosto che presentare informazioni accurate e corrette. Anche quando vengono implementati filtri di sicurezza, la disinformazione continua ad affliggere la scrittura dell'IA, che cerca di soddisfare l'utente.

Durante l'allineamento, il modello apprende la differenza tra risposte positive e negative ai suggerimenti. I dati sulle preferenze possono essere estremamente distorti, poiché si basano sui punti di vista del formatore e non necessariamente sui fatti.

Abbiamo fornito un esempio delle parole e delle frasi più comuni utilizzate nella scrittura AI. Queste derivano dai pregiudizi introdotti nella fase di pre-addestramento.

L'IA è nota per il linguaggio e la formattazione altamente strutturati. Le frasi di transizione, gli elenchi puntati e la scrittura ordinata sono prevalenti nella scrittura IA grazie alla fase di allineamento.

La scrittura dell'IA è spesso formale perché i testi formali sono sovrarappresentati su Internet e quindi sovrarappresentati nei set di dati di addestramento dell'IA. La positività e l'utilità vengono rafforzate durante l'allineamento.

Nota: Pangram non prevede l'uso dell'IA solo perché un testo contiene un linguaggio e una formattazione comuni all'IA.

Umanizzatori nel mondo accademico

Abbiamo studiato 19 diversi strumenti di umanizzazione e ne abbiamo creato uno nostro. Abbiamo scoperto che gli umanizzatori basati sull'intelligenza artificiale preservano il significato originale in misura variabile (da lievi modifiche a testi incomprensibili). Alcuni umanizzatori svolgono un buon lavoro di parafrasi, ma non riescono a eludere il rilevamento. Più il testo umanizzato è fluido, meno è probabile che riesca a eludere il rilevamento. Gli umanizzatori sono in grado di rimuovere la filigrana SynthID di Google (utilizzata per contrassegnare il testo generato da Gemini).

Rilevamento automatico e umano dell'intelligenza artificiale

La prima generazione di strumenti di rilevamento dell'IA e i loro difetti hanno influenzato l'opinione pubblica sul rilevamento dell'IA. Questi strumenti si basavano su correlazioni con l'uso dell'IA piuttosto che su segnali causali. Dichiaravano un'accuratezza del 99%, inadeguata per uso accademico.

Questa nuova generazione di strumenti di rilevamento vanta un'accuratezza superiore al 99,9% e tassi di falsi positivi (FPR) molto bassi! Sono inoltre resistenti ai parafrasatori e agli umanizzatori.

Tuttavia, i rilevatori di IA non sono tutti uguali! Esistono diversi gradi di accuratezza dovuti ai diversi modi in cui i rilevatori vengono addestrati.

Pangram, TurnItIn e Ghostbusters utilizzano il rilevamento basato sull'apprendimento. Nel rilevamento basato sull'apprendimento, il modello viene addestrato imparando cosa è e cosa non è generato dall'IA da un ampio campione. Mentre il

Gli esperti umani che hanno esperienza nell'uso degli LLM per attività di scrittura sono in grado di rilevare l'IA con un'accuratezza del 92%. I linguisti non sono stati in grado di raggiungere lo stesso livello di accuratezza senza esperienza nell'uso di strumenti come ChatGPT. I rilevatori umani sono in grado di spiegare perché hanno scelto una previsione specifica riguardo al testo. Sebbene Pangram abbia un'accuratezza e un tasso di falsi positivi più elevati, non è in grado di contestualizzare il testo.

Creazione di un processo equo di integrità accademica nell'ambito dell'IA

Nel definire politiche o standard relativi all'uso dell'IA, la comunicazione deve essere chiara. L'IA può essere utilizzata per scrivere bozze, generare idee, correggere errori grammaticali, effettuare ricerche, redigere bozze o svolgere compiti di scrittura sostanziali. È necessario implementare linee guida sui livelli di utilizzo dell'IA consentiti o non consentiti.

Studenti e insegnanti devono comprendere come gli strumenti comuni si stanno evolvendo grazie all'IA. La funzione "Aiutami a scrivere" di Google Docs ottiene i suoi risultati da Gemini. Grammarly attualmente include la generazione e la parafrasi tramite IA. Gli strumenti di traduzione potrebbero utilizzare gli LLM per funzionare. Anche l'utilizzo di sezioni tratte da ricerche generate dall'IA o da brainstorming attiva il rilevamento.

Raccomandiamo l'uso sia del ragionamento umano che del rilevamento automatico. È incredibilmente ingiusto nei confronti dello studente utilizzare esclusivamente il rilevamento AI per valutare il suo lavoro a causa dello 0,01% di FPR. Dopo aver ricevuto una previsione positiva, i passi successivi sarebbero quelli di valutare il processo di scrittura dello studente e confrontare il testo positivo con i suoi lavori precedenti. Assicurati di testare il rilevatore con alcuni testi e di considerare i risultati che potresti ottenere utilizzando un LLM per il compito.

Se diventa sempre più evidente che uno studente ha consegnato un compito scritto dall'intelligenza artificiale, questo può essere un momento didattico. È importante trattare gli studenti con rispetto ed evitare di essere eccessivamente punitivi. Gli studenti possono trarre beneficio dal rifare il compito e dal discutere su ciò che ha contribuito all'uso dell'intelligenza artificiale.

Per ulteriori informazioni su questo articolo, guarda il webinar completo: https://www.pangram.com/resources/the-state-of-ai-detection-in-2025.

Iscriviti alla nostra newsletter
Condividiamo aggiornamenti mensili sulla nostra ricerca nel campo del rilevamento dell'intelligenza artificiale.