Riteniamo che il rilevamento dell'IA continuerà a essere efficace, anche di fronte a potenti modelli all'avanguardia come Claude Mythos Preview.

Quando un autore, sia esso umano o un modello di linguaggio generativo (LLM), scrive un testo, prende delle decisioni. Anche in un testo di sole 150 parole, un autore può prendere centinaia di migliaia di decisioni, consapevoli o inconsapevoli, riguardo alla scelta delle parole, all'ordine delle parole, alla punteggiatura e alla struttura delle frasi.

In sostanza, il rilevamento dell'IA è un problema di identificazione dell'autore. Per quanto sofisticato possa diventare un determinato modello, è sempre un unico autore a prendere le decisioni. Queste decisioni sono inoltre soggette a dei vincoli: i modelli assistenti devono produrre testi utili, chiari e leggibili. Queste caratteristiche vengono integrate nel modello attraverso la messa a punto supervisionata e l'apprendimento per rinforzo.

Anche il modello di frontiera più sofisticato rimane comunque un sistema strutturato unico, con abitudini e peculiarità ben identificabili. Questi modelli generano inoltre una grande quantità di testo, il che significa che abbiamo molte opportunità per capire che tipo di decisioni tendono a prendere.

A volte si tende a inquadrare il problema come se «la distanza statistica tra la scrittura umana e quella generata dall’IA si stesse riducendo». Si tratta di una rappresentazione errata di come funziona il rilevamento. L'IA scrive già abbastanza bene da sembrare umana a un occhio inesperto, come abbiamo visto in un quiz del NYT diventato virale. Ma la scrittura prodotta da un modello, come l'output di qualsiasi singolo autore, sarà sempre raggruppata nello spazio di embedding. Ecco perché crediamo che il rilevamento dell'IA continuerà a essere fattibile, anche se i modelli diventeranno sempre più potenti.

I risultati sembrano promettenti. L'attuale modello Pangram è riuscito a riconoscere correttamente il racconto breve "Mythos Preview" pubblicato nella scheda di sistema.

Finché i modelli saranno sistemi addestrati, riteniamo che il rilevamento rimarrà un problema risolvibile.