Annunciamo una nuova partnership con Proofig! Per saperne di più

Come funziona il rilevamento dell'IA?

Alex Roitman
9 ottobre

Punti chiave:

  • Gli LLM mostrano determinati modelli che consentono agli strumenti di rilevamento dell'IA di identificare se si tratta di contenuti generati da esseri umani o dall'IA.
  • I vecchi rilevatori si basavano sulla burstiness e sulla perplessità, ma questi parametri sono inaffidabili. I nuovi rilevatori funzionano molto meglio e si basano su set di dati più grandi e sull'apprendimento attivo.
  • Quando si sceglie un rilevatore, gli utenti devono stabilire quali percentuali di falsi positivi e falsi negativi sono accettabili. Devono inoltre determinare se hanno bisogno di un controllo antiplagio o di altre funzionalità prima di selezionare uno strumento.
  • Le persone che non sono state addestrate al rilevamento dell'IA non sono molto brave in questo. Tuttavia, coloro che sono stati addestrati o che sono regolarmente esposti a testi generati dall'IA sono in grado di identificare i contenuti generati dall'IA meglio di chi non è stato addestrato. Questo rilevamento, combinato con un software, può funzionare molto bene.

Cosa sono i rilevatori di IA?

L'intelligenza artificiale può essere rilevata. Non si tratta di magia nera, ma di qualcosa che ha alle spalle molta ricerca. In un'epoca in cui i contenuti generati dall'intelligenza artificiale sono sempre più diffusi nel mondo accademico, nei media e nel mondo degli affari, la capacità di distinguere tra testi scritti da esseri umani e testi scritti da macchine è una competenza fondamentale. L'intelligenza artificiale compie scelte linguistiche, stilistiche e semantiche che possono essere rilevate da un occhio esperto o da un software di rilevamento automatico sufficientemente avanzato. Questo perché siamo in grado di capire perché l'intelligenza artificiale parla in un certo modo e quali sono i modelli che possiamo utilizzare per individuarla.

Come funzionano i modelli linguistici di grandi dimensioni?

Prima di parlare di come funziona il software di rilevamento dell'IA, è importante comprendere che i modelli di intelligenza artificiale sono distribuzioni di probabilità. Un modello linguistico di grandi dimensioni (LLM) come ChatGPT è una versione molto complessa di questo, che prevede costantemente la parola o il "token" più probabile successivo in una sequenza. Queste distribuzioni di probabilità vengono apprese da un'enorme quantità di dati, che spesso comprendono una parte significativa dell'Internet pubblico.

Una domanda che spesso viene posta è: "I modelli linguistici basati sull'intelligenza artificiale rappresentano la media di tutti i testi scritti dall'uomo?" La risposta è chiaramente no. I modelli linguistici non si limitano a calcolare la media di ciò che dicono tutti gli esseri umani. Innanzitutto, i modelli linguistici compiono scelte altamente idiosincratiche. Inoltre, sono fortemente influenzati dai dati di addestramento e dai pregiudizi dei loro creatori. Infine, i moderni LLM sono ottimizzati per seguire le istruzioni e dire cose che gli utenti vogliono sentire, piuttosto che per la correttezza o l'accuratezza, una caratteristica che li rende assistenti utili ma fonti di verità inaffidabili.

Questo è il risultato della moderna procedura di formazione LLM, che prevede tre fasi:

  • Pre-addestramento: durante questa fase dell'addestramento, il modello apprende i modelli statistici del linguaggio. In questi modelli emergono i pregiudizi presenti nei dati di addestramento. Ad esempio, i dati che compaiono frequentemente su Internet, come Wikipedia, sono sovrarappresentati, motivo per cui il testo generato dall'IA ha spesso un tono formale ed enciclopedico. Inoltre, per creare i dati di addestramento viene utilizzata manodopera a basso costo e in outsourcing, ed è per questo che parole come "delve", "tapestry" e "intricate" diventano estremamente comuni nei testi generati dall'IA, riflettendo le norme linguistiche dei creatori dei dati piuttosto che quelle degli utenti finali.
  • Ottimizzazione delle istruzioni: durante questa fase, il modello impara a seguire le istruzioni e a obbedire agli ordini. Di conseguenza, il modello impara che è meglio seguire le istruzioni piuttosto che presentare informazioni accurate e corrette. Ciò si traduce in un comportamento servile o "accondiscendente", in cui l'IA dà la priorità alla generazione di una risposta utile e gradevole, anche se per farlo deve inventare fatti o "allucinare". Per loro è più importante essere accondiscendenti che fornire informazioni corrette.
  • Allineamento: durante questa fase, il modello impara a dire ciò che piace e ciò che le persone preferiscono. Impara quali sono le cose "buone" e "cattive" da dire. Tuttavia, questi dati sulle preferenze possono essere estremamente distorti, favorendo spesso risposte neutre, sicure e inoffensive. Questo processo può privare il modello di una voce distintiva, portandolo a evitare controversie o opinioni forti. L'LLM non ha alcun fondamento nella verità o nella correttezza.

I modelli di IA generativa sono prodotti, rilasciati da aziende tecnologiche, che inseriscono intenzionalmente pregiudizi e comportamenti che si riflettono nei loro risultati.

Quali sono i modelli nel linguaggio dell'intelligenza artificiale?

Una volta compreso come vengono addestrati gli LLM, è possibile individuare i "segnali rivelatori" degli strumenti di scrittura basati sull'intelligenza artificiale. Spesso non è un singolo elemento a far scattare l'allarme, ma una combinazione di tutte queste parole.

Lingua e stile

  • Scelta delle parole: gli autori di contenuti AI hanno parole preferite, come: aspetto, sfide, approfondire, migliorare, arazzo, testamento, autentico, completo, cruciale, significativo, trasformativo e avverbi come inoltre e inoltre. Ciò accade a causa del pregiudizio nei set di dati di pre-addestramento. L'uso frequente di queste parole può creare un tono eccessivamente formale o pomposo, che spesso risulta fuori luogo nel contesto di un tipico saggio studentesco o di una comunicazione informale.
  • Modelli di fraseologia: la scrittura basata sull'intelligenza artificiale utilizza modelli di fraseologia come "mentre [verbo] l'argomento", "è importante notare", "non solo ma anche", "aprendo la strada" e " quando si tratta di". Queste frasi, sebbene grammaticalmente corrette, sono spesso utilizzate come riempitivi conversazionali e possono rendere la scrittura generica e stereotipata.
  • Ortografia e grammatica: la scrittura AI utilizza generalmente un'ortografia e una grammatica perfette e predilige frasi complesse. La scrittura umana utilizza un mix di frasi semplici e complesse e anche gli scrittori esperti a volte utilizzano modelli grammaticali che non sono "perfetti secondo le regole" per motivi stilistici, come l'uso di frammenti di frase per enfatizzare.

Struttura e organizzazione

  • Paragrafi e struttura delle frasi: la scrittura AI tende generalmente a utilizzare paragrafi molto organizzati, tutti della stessa lunghezza e con strutture simili a elenchi. Ciò può risultare in un ritmo monotono che manca della naturale variazione della scrittura umana. Questo può valere anche per la lunghezza delle frasi.
  • Introduzioni e conclusioni: i saggi generati dall'IA hanno solitamente un'introduzione e una conclusione molto ordinate, e la conclusione è spesso molto lunga, inizia con "Nel complesso" o "In conclusione" e ripete gran parte di ciò che è già stato scritto, essenzialmente riformulando la tesi e i punti principali senza aggiungere nuove intuizioni o sintesi.

Scopo e personalità

  • Scopo e intento: il testo è solitamente molto vago e pieno di generalità. Ciò accade perché l'ottimizzazione delle istruzioni dà troppa priorità all'aderenza al prompt e, per rimanere in tema, il modello impara che è meglio essere davvero vaghi e generici per ridurre al minimo il rischio di essere scorretti.
  • Riflessione e metacognizione: l'intelligenza artificiale è molto carente nella capacità di riflettere e mettere in relazione la scrittura con le esperienze personali... perché non ha esperienze personali a cui fare riferimento! La scrittura umana può mostrare la voce unica e l'esperienza personale del suo autore, creando connessioni e generando idee innovative che non sono semplicemente un remix di informazioni esistenti.
  • Cambiamenti improvvisi nello stile e nel tono: a volte si verificano cambiamenti molto bruschi e improvvisi nel tono e nello stile. Ciò accade quando uno studente utilizza l'IA per parte della propria scrittura, ma non per tutta, creando un prodotto finale incoerente e disarticolato.

Come funziona il rilevamento AI: tre passaggi

  • Addestrare il modello di rilevamento AI: Innanzitutto, il modello viene addestrato. I primi rilevatori AI non funzionavano molto bene perché cercavano di rilevare parti di testo con elevata perplessità o elevata irregolarità. La perplessità è quanto ogni parola in un frammento di testo sia inaspettata o sorprendente per un modello linguistico di grandi dimensioni. La burstiness è la variazione della perplessità nel corso di un documento. Tuttavia, questo approccio presenta diversi difetti e spesso non riesce a rilevare i risultati dell'IA. Inoltre, utilizza solo un set di dati di testo limitato per l'addestramento. I modelli moderni e di successo come Pangram utilizzano un set di dati più ampio e impiegano tecniche come l'apprendimento attivo per ottenere risultati più accurati.
  • Inserisci il testo che deve essere classificato e tokenizzalo: un utente fornisce l'input. Quando un classificatore riceve il testo in ingresso, lo tokenizza. Ciò significa che prende tutto il testo e lo scompone in una serie di numeri che il modello può interpretare. Il modello trasforma quindi ogni token in un embedding, ovvero un vettore di numeri che rappresenta il significato di ciascun token.
  • Classificare il token come umano o AI: l'input viene passato attraverso la rete neurale, producendo un output embedding. Un classificatore trasforma l'output embedding in una previsione 0 o 1, dove 0 è l'etichetta umana e 1 è l'etichetta AI.

E i falsi positivi e i falsi negativi?

Il valore di uno strumento di rilevamento AI viene misurato in base al numero di falsi positivi (FPR) e falsi negativi (NPR) risultanti dall'utilizzo dello strumento. Un falso positivo si verifica quando un rilevatore prevede erroneamente che un campione di contenuto scritto da un essere umano sia stato scritto dall'AI. Al contrario, un falso negativo si verifica quando un campione generato dall'AI viene erroneamente previsto come testo scritto da un essere umano.

Rilevamento umano vs rilevamento automatico

Se si sceglie di individuare l'IA solo a occhio nudo, è necessario essere adeguatamente formati. I non esperti non possono fare di meglio che indovinare a caso. Anche i linguisti più esperti non sono in grado di individuare l'IA senza una formazione specifica. Il nostro consiglio è quello di utilizzare entrambi i metodi per ottenere i migliori risultati, creando un processo di valutazione più solido ed equo.

I rilevatori di contenuti generati dall'intelligenza artificiale sono in grado di dirti se qualcosa è stato generato da strumenti di intelligenza artificiale. Gli esseri umani non solo sono in grado di dirti se qualcosa è stato generato dall'intelligenza artificiale, ma possono anche aggiungere ulteriori contestualizzazioni e sfumature a tale decisione. Un essere umano conosce il contesto: i precedenti esempi di scrittura degli studenti, il livello di scrittura richiesto per quel grado scolastico e come si presenta una tipica risposta a un compito da parte di uno studente. Questo contesto è fondamentale, poiché l'adeguatezza dell'uso dell'intelligenza artificiale può variare notevolmente a seconda delle istruzioni del compito.

Gli strumenti di rilevamento basati sull'intelligenza artificiale sono solo l'inizio. Non costituiscono una prova conclusiva della violazione dell'integrità accademica da parte di uno studente, ma piuttosto un primo dato che giustifica un'ulteriore indagine contestuale. L'uso dell'intelligenza artificiale può essere involontario, accidentale o persino consentito nell'ambito di un particolare compito: dipende!

Bonus: E gli umanizzatori?!

Gli umanizzatori sono strumenti utilizzati per "umanizzare" i contenuti generati dall'intelligenza artificiale al fine di evitare il rilevamento dell'IA. Gli autori di contenuti li utilizzano spesso per modificare l'aspetto dei testi scritti dall'IA. Gli umanizzatori parafrasano il testo, rimuovono parole specifiche e aggiungono "errori" simili a quelli umani a un contenuto. A volte questo rende il testo praticamente illeggibile o ne riduce significativamente la qualità. Molti rilevatori di IA addestrano il loro software a rilevare il testo umanizzato. Spesso l'uso di un umanizzatore comporta dei rischi, perché può ridurre drasticamente la qualità del testo, il che è particolarmente preoccupante per i lavori degli studenti.

Ora che sai come funzionano, prova con i tuoi contenuti. È AI o umano?

Iscriviti alla nostra newsletter
Condividiamo aggiornamenti mensili sulla nostra ricerca nel campo del rilevamento dell'intelligenza artificiale.