Annunciamo una nuova partnership con Proofig! Per saperne di più
Il nostro classificatore utilizza un'architettura di modello linguistico tradizionale. Riceve il testo in ingresso e lo tokenizza. Quindi, il modello trasforma ogni token in un embedding, ovvero un vettore di numeri che rappresenta il significato di ciascun token.
L'input viene trasmesso attraverso la rete neurale, producendo un output incorporato. Una testa classificatrice trasforma l'output incorporato in una previsione 0 o 1, dove 0 è l'etichetta umana e 1 è l'etichetta AI.
Il modello iniziale era già piuttosto efficace, ma volevamo massimizzare la precisione e ridurre qualsiasi possibilità di falsi positivi (ovvero la previsione errata che documenti scritti da esseri umani fossero stati generati dall'IA). A tal fine, abbiamo sviluppato un algoritmo specifico per i modelli di rilevamento dell'IA.
Con il set di dati iniziale, il nostro modello non disponeva di segnali sufficienti per passare da un'accuratezza del 99% a una del 99,999%. Sebbene il modello apprenda rapidamente i modelli iniziali nei dati, ha bisogno di vedere casi limite difficili per distinguere con precisione tra testo umano e testo generato dall'IA.
Risolviamo questo problema utilizzando il modello per cercare falsi positivi in grandi set di dati e aumentando il set di addestramento iniziale con questi esempi difficili aggiuntivi prima di ripetere l'addestramento. Dopo diversi cicli di questo processo, il modello risultante mostra un tasso di falsi positivi quasi pari a zero e prestazioni complessivamente migliorate sui set di valutazione esclusi.
