Annunciamo una nuova partnership con Proofig! Per saperne di più

Annuncio dell'identificazione AI: Pangram è in grado di distinguere i diversi LLM l'uno dall'altro

Bradley Emi
11 febbraio 2025

Pangram è il software leader nel rilevare testi generati dall'intelligenza artificiale scritti da ChatGPT, Claude, Gemini e altri, e nel distinguere i testi scritti dall'intelligenza artificiale da quelli scritti da esseri umani.

Ora stiamo facendo un ulteriore passo avanti e lanciando un modello avanzato in grado non solo di rilevare i contenuti generati dall'intelligenza artificiale, ma anche di individuare da quale LLM proviene un testo generato dall'intelligenza artificiale. Abbiamo chiamato la nostra nuova tecnologia "AI Identification".

Identificazione AI

Intuitivamente, le persone stanno iniziando a rendersi conto che i diversi LLM hanno stili di scrittura diversi. Ad esempio, ChatGPT è noto per essere piuttosto diretto e schietto, Claude è noto per essere più fluido e colloquiale, Grok è noto per essere senza censure e provocatorio, mentre Deepseek-R1 sta iniziando a farsi conoscere per essere prolisso e verboso.

Graham Neubig prende in giro le diverse tendenze stilistiche dei vari LLM.

Ethan Mollick riflette sulla piacevole personalità di Claude Sonnet.

Un recente studio condotto da Lisa Dunlap e dai suoi collaboratori dell'Università della California, Berkeley, ha analizzato le differenze qualitative (o, in termini informali, le "vibrazioni") dei diversi LLM. Sono emersi molti aspetti interessanti, ad esempio che "Llama è più spiritoso, utilizza più formattazioni, fornisce più esempi e commenta molto meno l'etica rispetto a GPT e Claude". Ciò implica che le prestazioni del modello non sono sempre in linea con le preferenze umane: anche se GPT-4 e Claude-3.5 sono modelli più avanzati rispetto alla serie Llama, Llama sembra sempre superare le aspettative su Chatbot Arena, una classifica crowdsourcing basata sul sistema Elo che valuta i modelli LLM in base alle preferenze sulle risposte alle stesse domande. I modelli che ottengono buoni risultati su Chatbot Arena sono più intelligenti e capaci, o stanno semplicemente cercando di manipolare la psicologia umana in modo da renderli più "simpatici"? E alcuni modelli sono più utili e simpatici di altri, ma è davvero importante che siano meno capaci di risolvere problemi di ragionamento a livello di dottorato? Queste sono domande che vale la pena studiare e che sono importanti per comprendere l'utilità di sistemi come Chatbot Arena rispetto alle valutazioni tradizionali dei modelli.

Noi di Pangram ci siamo chiesti se fosse possibile che il nostro modello potesse utilizzare queste vibrazioni per identificare e distinguere questi LLM l'uno dall'altro.

Sistema di identificazione AI di Pangram

Analogamente a come addestriamo il nostro modello di rilevamento AI di base per distinguere la scrittura AI dal testo umano, addestriamo anche lo stesso modello di rilevamento per eseguire l'identificazione AI utilizzando una tecnica chiamata apprendimento multi-task. In pratica, classifichiamo i vari modelli linguistici in 9 famiglie, che abbiamo determinato attraverso una sperimentazione approfondita.

Le famiglie sono le seguenti:

  1. GPT-3.5
  2. GPT-4 (include GPT-4o, GPT-4-turbo e GPT-4o-mini)
  3. Modelli di ragionamento OpenAI
  4. Claude
  5. Google (include entrambe le varianti Gemini e Gemma)
  6. Grok
  7. DeepSeek
  8. Amazon Nova
  9. Altro (include LLaMA, Mistral, Qwen e altri derivati open source di questi modelli)

Il modo in cui realizziamo questo obiettivo nella pratica è aggiungere un altro "capo" alla nostra rete neurale. Quando supervisioniamo il compito di rilevamento dell'IA, supervisioniamo anche il compito di identificazione dell'IA passando l'etichetta del modello alla rete e retropropagando l'errore nell'identificazione dell'IA così come nella previsione di rilevamento.

Fonte immagine: GeeksForGeeks

Quasi tutti i livelli del modello sono condivisi tra le due attività e solo il livello di previsione finale è suddiviso.

Nell'apprendimento multitasking abbiamo scoperto che alcune attività si aiutano a vicenda quando vengono apprese insieme, mentre altre si danneggiano a vicenda. In biologia, un concetto simile è quello di simbiosi contro parassitismo. Ad esempio, un pesce pagliaccio che vive in un anemone di mare è un esempio di simbiosi: il pesce pagliaccio si nutre di predatori che possono danneggiare l'anemone, mentre il pesce pagliaccio è protetto dai propri predatori mimetizzandosi e nascondendosi all'interno dell'anemone.

Abbiamo riscontrato che l'aggiunta dell'attività di identificazione LLM è simbiotica con l'attività di rilevamento LLM. In altre parole, chiedere al nostro modello non solo di rilevare il testo generato dall'IA, ma anche di identificare il modello da cui proviene, è complessivamente utile per essere in grado di rilevare l'IA. Altri ricercatori hanno anche confermato che i vari LLM non solo sono distinguibili dal testo umano, ma sono anche distinguibili l'uno dall'altro.

Un embedding è una rappresentazione di un brano di testo sotto forma di vettore numerico. I valori effettivi dell'embedding non hanno significato se considerati isolatamente, ma quando due embedding sono vicini tra loro, significa che hanno un significato simile o uno stile simile. Utilizzando una tecnica chiamata UMAP, possiamo visualizzare gli embedding, che sono molto elevati in termini dimensionali, in uno spazio bidimensionale. Questi autori hanno scoperto che quando i documenti scritti da esseri umani e LLM vengono convertiti in embedding di stile, come si può vedere nell'immagine sopra, tutti i documenti corrispondenti allo stesso LLM sono separabili nello spazio di embedding! Ciò significa che, nel complesso, tutti i documenti scritti dallo stesso LLM sono più vicini nello stile rispetto a quelli scritti da LLM diversi o da LLM e esseri umani.

Questo risultato ci ha dato la certezza che fosse possibile realizzare un classificatore in grado di identificare l'LLM di origine.

Precisione dell'identificazione tramite IA

Il nostro modello ha un'accuratezza del 93% nell'identificare la famiglia LLM corretta da cui proviene un testo generato dall'intelligenza artificiale. Di seguito è riportata la matrice di confusione, che mostra la frequenza con cui il nostro modello identifica correttamente ciascuna famiglia LLM (celle diagonali) rispetto alla frequenza con cui confonde un LLM con un altro (celle non diagonali). Più scuro è il colore, più previsioni rientrano in quella cella. Un modello perfetto avrebbe solo quadrati scuri lungo la diagonale e quadrati bianchi ovunque altrove.

Alcune osservazioni interessanti sulla nostra matrice di confusione:

  • Le confusioni si verificano più frequentemente tra famiglie di modelli. Ad esempio, GPT-4 viene spesso confuso con la serie di ragionamenti OpenAI. Ciò ha senso, poiché GPT-4 è probabilmente un componente o un punto di partenza per i modelli di ragionamento OpenAI!

  • Il modello confonde più spesso gli LLM con "Altro" che con LLM specifici. Ciò dimostra che nei casi in cui il modello non è sicuro, è più probabile che scelga "Altro" piuttosto che impegnarsi con un determinato LLM.

Sebbene il classificatore LLM non sia perfetto, spesso è accurato e, cosa più importante, quando sbaglia confonde alcuni sistemi di IA con altri sistemi di IA, ma non confonde i risultati dei sistemi di IA con la scrittura umana autentica.

Perché è importante l'identificazione tramite IA?

Abbiamo ritenuto importante andare oltre il rilevamento dell'IA e risolvere anche l'identificazione dell'IA per una serie di motivi.

  • In primo luogo, riteniamo che insegnare al modello a distinguere gli stili di scrittura dei diversi LLM, un compito più difficile rispetto alla semplice identificazione della presenza o meno dell'IA, sia utile per rafforzare le prestazioni del rilevatore di IA stesso. Chiedendo al modello di andare oltre, esso acquisisce in un certo senso competenze avanzate e conoscenze latenti che lo aiutano a generalizzare il rilevamento di testi generati dall'IA con maggiore precisione.

  • L'interpretabilità è un altro motivo per cui vogliamo mostrare i risultati del classificatore LLM. Vorremmo creare fiducia nel fatto che il modello sappia effettivamente cosa sta facendo sotto il cofano e non stia semplicemente facendo ipotesi casuali (come molti altri rilevatori casuali). Mostrando non solo il punteggio AI, ma anche da quale LLM proviene il testo, speriamo di creare fiducia nella capacità del modello di comprendere le sfumature dello stile di scrittura AI.

  • Infine, vogliamo scoprire i modelli nel tempo: quali LLM vengono utilizzati nella pratica e con quale frequenza? Quali sono gli LLM preferiti dagli studenti, dai truffatori e dai programmatori? Questi sono i tipi di domande a cui ora speriamo di poter rispondere in studi futuri.

Conclusione

Ci auguriamo che apprezzerete la nostra funzione di identificazione AI e che vi sia utile per comprendere le personalità e gli stili innati delle diverse famiglie LLM. Per ulteriori informazioni, contattate info@pangram.com!

Iscriviti alla nostra newsletter
Condividiamo aggiornamenti mensili sulla nostra ricerca nel campo del rilevamento dell'intelligenza artificiale.