Scopri subito cosa è pubblicato da persone e cosa dall'IA su Twitter, LinkedIn, Substack e altre piattaforme. Scarica la nostra nuova estensione per Chrome.
Nota: durante il processo di revisione è stato utilizzato un modello linguistico basato sull'intelligenza artificiale per redigere le descrizioni tecniche e suggerire miglioramenti a livello di struttura e stile. Diversi suggerimenti forniti dall'intelligenza artificiale sono stati inseriti nella versione finale dell'articolo.
Ho letto una quantità imbarazzante di libri di narrativa, soprattutto di fantascienza. Inoltre, per il mio lavoro di ingegnere informatico, utilizzo tutti i modelli di IA di punta che vengono lanciati sul mercato.
Queste due esperienze mi hanno lasciato la fastidiosa sensazione che l'intelligenza artificiale abbia una "voce" sorprendentemente uniforme se paragonata a quella di un autore umano di alto livello.
Chiunque ami la letteratura sa bene di cosa sto parlando. Ho letto racconti di circa cinquemila autori diversi, ma onestamente credo che anche chi ne ha letti solo una mezza dozzina si accorga che ogni autore occupa un proprio spazio stilistico.
Rispetto allo stile unico degli scrittori umani, i testi generati dall'intelligenza artificiale risultano straordinariamente uniformi. A quanto pare, c'è una buona ragione per questo, e ha a che fare con la teoria dell'informazione.
Una "voce" autoriale unica non è casuale, né è nella media. Si tratta di una specifica distribuzione di probabilità — chiamiamola P_autore. Quando un autore scrive, attinge da un processo altamente personale. Ha specifiche probabilità condizionali relative al modo in cui utilizza i concetti, il ritmo, il vocabolario e altri strumenti stilistici.
Ciò che rende riconoscibile una voce sono le scelte a bassa frequenza ma di grande impatto che un autore adotta con coerenza (la coda lunga della distribuzione). Se dico "Ted Chiang", penserete immediatamente a quanto le sue frasi siano sintatticamente semplici ma semanticamente dense (è uno stile che ammiro, ma, come dimostra questa parentesi, non riesco a imitare). Se dico "Ursula K. Le Guin", penserete a come riesca a essere così chiara e concreta pur trasmettendo una sensazione lirica — non riesco davvero a descrivere bene il suo stile, ma i lettori di Le Guin sanno cosa intendo.
In definitiva, ciò che intendo dire è che il modo corretto per valutare quanto un testo "sembri generato dall'IA" non consiste nel verificare se sia prevedibile in generale — la maggior parte dei testi ben scritti è in qualche modo prevedibile —, ma nel misurare la divergenza di KL tra la distribuzione di output del modello e quella di un autore specifico: D_KL(P_autore || Q_modello). Per chi non ha familiarità con la divergenza KL, questa misura quanto la distribuzione del modello non riesca a coprire le scelte dell'autore (per essere precisi, misura il costo aggiuntivo previsto delle informazioni per codificare campioni da P usando un codice ottimizzato per Q). Quando questa divergenza è ampia e strutturata, si sente una voce.
Durante la fase di pre-addestramento, un modello linguistico di grandi dimensioni genera una mappa della distribuzione generalizzata del testo umano. Questa distribuzione di base, Q_base, è estremamente ampia. Nel suo spazio latente è in grado di approssimare praticamente qualsiasi P_author.
La trappola di cui parlo parte proprio dall'allineamento. Per rendere il modello sicuro e utile, i laboratori applicano tecniche come l'apprendimento per rinforzo basato sul feedback umano (RLHF) e altre simili. I dettagli variano, ma il punto fondamentale è che il modello viene ottimizzato per produrre risultati che ottengono un punteggio elevato rispetto a un segnale di ricompensa derivato dalle preferenze umane (o dell'IA).
Questo non spinge il modello verso la media statistica dell'inglese. Lo spinge invece verso qualcosa con una distribuzione di probabilità diversa — chiamiamolo "dialetto di consenso degli annotatori".
Il meccanismo alla base di tutto questo è il seguente: quando i valutatori (lavoratori freelance incaricati di valutare i risultati, esperti o chiunque altro) valutano i risultati, uno stile di scrittura personale genera una forte variabilità nei punteggi. Il mio stile di scrittura potrebbe ottenere un punteggio di 5/5 da un valutatore e 2/5 da un altro. Ma una risposta sterile, simmetrica e fortemente cauta potrebbe ottenere un punteggio di 4/5 su tutta la linea. L'algoritmo di ottimizzazione impone che il modo più sicuro per massimizzare la ricompensa attesa sia ridurre la varianza. È l'equivalente conversazionale dell'arredamento della hall di un hotel.
Potresti obiettare: «Joe, questa non è una descrizione corretta! Le tecniche di allineamento più recenti sono progettate espressamente per preservare la diversità!». Sebbene ciò sia vero, i metodi più recenti continuano comunque a privilegiare un tipo di output "preferito", che penalizza ancora l'assunzione di rischi ad alta varianza rispetto a una prosa sicura e ampiamente accettabile.
Si tratta di un'ipotesi verificabile (non l'ho verificata, ma è verificabile). Se si misurasse la divergenza di Kullback-Leibler tra i risultati allineati del modello e un corpus composto, ad esempio, da comunicazioni aziendali e narrativa letteraria, la mia previsione è che la distribuzione del modello risulterebbe molto più vicina al centro del corpus aziendale. Per quanto ne so, nessuno ha pubblicato questa misurazione specifica, ma i modelli matematici di ottimizzazione la prevedono con certezza.
So cosa stai pensando: sì, ma puoi indurre il modello a uscire da questo dialetto. "Scrivi nello stile di un romanzo poliziesco hard-boiled degli anni '20" o qualcosa del genere (una parte di me vorrebbe vedere come risulterebbe questo articolo se chiedessi a un modello di riscriverlo come un testo di una canzone di Lupe Fiasco). Questo produce effettivamente un testo che sembra diverso dal "dialetto di consenso dell'Annotator", ma risulta comunque sospettosamente uniforme.
Questo perché esiste una differenza matematica tra lo spostamento della media di una distribuzione e la riproduzione della sua struttura di varianza.
Quando si chiede a un modello di imitare un autore, il suo baricentro si sposta. Il modello calcola la media statistica del vocabolario, della struttura delle frasi e di altre caratteristiche stilistiche del modello di riferimento, e si sposta in quella direzione. Tuttavia, applica a questa nuova posizione lo stesso meccanismo di riduzione della varianza di cui abbiamo parlato.
Lo stile umano si basa su un'irregolarità strutturata. Un autore ha un ritmo di base, ma lo rompe intenzionalmente inserendo, ad esempio, un frammento improvviso, un verbo insolito o una frase contorta per ottenere un effetto emotivo. La stilometria computazionale dispone di strumenti per misurare questo aspetto: gli esponenti di Hurst applicati a serie temporali relative alla lunghezza delle frasi possono rivelare dipendenze a lungo raggio nella scrittura umana che mancano nei testi generati dall'IA. Gli autori umani modulano la loro diversità lessicale in modi che i modelli non sono in grado di riprodurre.
In sostanza, quando si richiede un testo scritto in uno stile particolare, il modello ne rileva le caratteristiche tipiche ma ne attenua tutte le asperità. Il risultato è una sorta di caricatura di ciò che si è richiesto.
Se la distribuzione dell'IA è troppo ristretta, perché non possiamo semplicemente ampliarla?
L'approccio più comune è il ridimensionamento della temperatura. Quando si aumenta la temperatura T, si dividono i logit grezzi del modello per T prima di calcolare le probabilità; ciò appiattisce l'intera distribuzione e costringe il modello a scegliere parole meno probabili. Tuttavia, lo fa in modo indiscriminato. L'eccentricità di un autore umano è altamente contestuale. Gli esseri umani infrangono le regole in modi molto specifici e coerenti, mentre il ridimensionamento della temperatura introduce semplicemente rumore stocastico.
Spero che questo sia abbastanza intuitivo: in definitiva, aumentando la temperatura si passa semplicemente da un andamento "sospettosamente regolare" a uno "sospettosamente casuale", senza passare affatto per quello umano.
So che esistono strategie di decodifica più sofisticate. Il campionamento top-p (nucleo), il filtraggio top-k, le penalità di ripetizione e la guida senza classificatore mirano tutti a una ridistribuzione più mirata. Sono certamente utili in una certa misura, ma nessuna di esse risolve il problema fondamentale, ovvero che si tratta di interventi in fase di inferenza che operano su un modello la cui intera filosofia operativa (se così si può definire) è stata definita durante l'allineamento.
C'è anche un'importante sfumatura che uno dei miei amici mi ha fatto notare di recente: l'allineamento non cancella la capacità latente del modello di base di variare stilisticamente. I pesi pre-addestrati continuano a codificare gran parte della ricchezza di Q_base, purché si disponga di un numero sufficiente di pesi. Esistono tecniche emergenti di steering in fase di inferenza, come il Representation Engineering, in grado di recuperare parzialmente la varianza soppressa attingendo allo spazio latente sottostante. Si tratta tuttavia di aree di ricerca e non di qualcosa di disponibile nei prodotti di IA di uso comune.
Allo stesso modo, l'apprendimento in-context con contesti lunghi può fornire risultati leggermente migliori, ma i meccanismi di attenzione si indeboliscono quando il contesto diventa sufficientemente ampio (e si tenderà a tornare alla distribuzione uniforme man mano che il contesto cresce).
Il punto fondamentale è che le scelte progettuali alla base delle tecniche correlate al RLHF finiranno per rendere queste "voci" dell'IA individuabili per molto più tempo di quanto chiunque voglia ammettere.
Inoltre, è utile pensare allo stile di un autore come a una specifica distribuzione di probabilità ad alta dimensione, e vi sfido a provare a individuare da soli alcuni valori della divergenza KL la prossima volta che leggerete il vostro autore preferito. Da dove proviene la voce dell'autore? È un esercizio divertente che potrebbe aumentare il vostro piacere di lettura, e il difficile processo di esercitarsi e interiorizzare nuove conoscenze è un'ottima cosa da fare in questi tempi di atrofia delle competenze indotta dai modelli di linguaggio di grandi dimensioni (LLM).

Joe Stech è il curatore della collana antologica annuale *Think Weirder: The Year's Best Science Fiction Ideas*. Lavora inoltre come Principal Solutions Architect nel settore dello sviluppo e dell'abilitazione delle piattaforme presso Arm. Le opinioni qui espresse sono esclusivamente sue.






