Annunciamo una nuova partnership con Proofig! Per saperne di più

Come Pangram rileva i contenuti generati dall'intelligenza artificiale

Visualizza il rapporto tecnico in formato PDF

Panoramica

Pangram Text è progettato per rilevare i contenuti generati dall'intelligenza artificiale con un tasso di falsi positivi quasi pari a zero. Il nostro rigoroso approccio di formazione riduce al minimo gli errori e consente al modello di rilevare i testi generati dall'intelligenza artificiale analizzando e comprendendo i sottili indizi presenti nella scrittura.

Processo di formazione iniziale

Il nostro classificatore utilizza un'architettura di modello linguistico tradizionale. Riceve il testo in ingresso e lo tokenizza. Quindi, il modello trasforma ogni token in un embedding, ovvero un vettore di numeri che rappresenta il significato di ciascun token.

L'input viene trasmesso attraverso la rete neurale, producendo un output incorporato. Una testa classificatrice trasforma l'output incorporato in una previsione 0 o 1, dove 0 è l'etichetta umana e 1 è l'etichetta AI.

Addestriamo un modello iniziale su un dataset piccolo ma diversificato di circa 1 milione di documenti composto da testi pubblici e autorizzati scritti da esseri umani. Il dataset include anche testi generati dall'intelligenza artificiale prodotti da GPT-4 e altri modelli linguistici all'avanguardia. Il risultato dell'addestramento è una rete neurale in grado di prevedere in modo affidabile se un testo è stato scritto da un essere umano o dall'intelligenza artificiale.

Miglioramento continuo attraverso l'iterazione

Estrazione mineraria negativa difficile

Il modello iniziale era già piuttosto efficace, ma volevamo massimizzare la precisione e ridurre qualsiasi possibilità di falsi positivi (ovvero la previsione errata che documenti scritti da esseri umani fossero stati generati dall'IA). A tal fine, abbiamo sviluppato un algoritmo specifico per i modelli di rilevamento dell'IA.

Con il set di dati iniziale, il nostro modello non disponeva di segnali sufficienti per passare da un'accuratezza del 99% a una del 99,999%. Sebbene il modello apprenda rapidamente i modelli iniziali nei dati, ha bisogno di vedere casi limite difficili per distinguere con precisione tra testo umano e testo generato dall'IA.

Risolviamo questo problema utilizzando il modello per cercare falsi positivi in grandi set di dati e aumentando il set di addestramento iniziale con questi esempi difficili aggiuntivi prima di ripetere l'addestramento. Dopo diversi cicli di questo processo, il modello risultante mostra un tasso di falsi positivi quasi pari a zero e prestazioni complessivamente migliorate sui set di valutazione esclusi.

UMANOAISuggerimenti dello specchio
Suggerimenti dello specchio
Progettiamo la parte AI del set di dati in modo che assomigli il più possibile alla parte umana in termini di stile, tono e contenuto semantico. Per ogni esempio umano, generiamo un esempio generato dall'AI che corrisponda al documento originale su quanti più assi possibile, per garantire che il nostro modello impari a classificare i documenti esclusivamente sulla base delle caratteristiche specifiche della scrittura LLM.
Riqualificare
Addestriamo il modello con un set di addestramento aggiornato e valutiamo le prestazioni del modello in ogni fase. Utilizzando questo metodo, siamo in grado di ridurre gli errori e aumentare la precisione del nostro modello oltre quanto sia possibile con un addestramento normale.
diagramma del modello di riqualificazione

Per saperne di più

arxiv.org
Relazione tecnica sul classificatore di testi generato dall'intelligenza artificiale Pangram
Consulta il nostro white paper tecnico completo su arXiv, dove approfondiamo i dettagli della formazione, le prestazioni e altri esperimenti!