Notizie

La teoria dell'informazione alla base del motivo per cui i testi generati dall'IA fanno schifo

19 maggio 2026

Indice

La voce come distribuzione di probabilità
La trappola RLHF e il "dialetto di consenso dell'annotatore"
L'illusione del camuffamento (perché la richiesta dello stile non funziona)
Il fallimento di "Temperature and Friends"
E allora?

Nota: durante il processo di revisione è stato utilizzato un modello linguistico basato sull'intelligenza artificiale per redigere le descrizioni tecniche e suggerire miglioramenti a livello di struttura e stile. Nella versione finale dell'articolo sono stati utilizzati diversi suggerimenti forniti dall'intelligenza artificiale.

Ho letto una quantità imbarazzante di libri di narrativa, soprattutto di fantascienza. Inoltre, per il mio lavoro di ingegnere informatico, utilizzo tutti i principali modelli di intelligenza artificiale che vengono rilasciati.

Queste due esperienze mi hanno lasciato la fastidiosa sensazione che l'intelligenza artificiale abbia una "voce" sorprendentemente uniforme se paragonata a quella di un autore umano di alto livello.

Chiunque ami la letteratura sa bene di cosa sto parlando. Ho letto racconti di circa cinquemila autori diversi, ma onestamente credo che anche chi ha letto solo una mezza dozzina di autori si accorga che ognuno di essi occupa un proprio spazio stilistico.

Rispetto allo stile unico degli scrittori umani, i testi generati dall'intelligenza artificiale risultano straordinariamente uniformi. A quanto pare, c'è una buona ragione per questo, e ha a che fare con la teoria dell'informazione.

La voce come distribuzione di probabilità

Una "voce" autoriale unica non è casuale, né è nella media. Si tratta di una specifica distribuzione di probabilità — chiamiamola P_autore. Quando un autore scrive, attinge da un processo altamente personale. Ha specifiche probabilità condizionate relative al modo in cui utilizza i concetti, il ritmo, il vocabolario e altri strumenti stilistici.

Ciò che rende riconoscibile uno stile sono le scelte a bassa frequenza ma di grande impatto che un autore adotta con coerenza (la coda lunga della distribuzione). Se dico "Ted Chiang", penserete immediatamente a quanto le sue frasi siano semplici dal punto di vista sintattico ma dense dal punto di vista semantico (è uno stile che ammiro, ma, come dimostra questa parentesi, non riesco a imitare). Se dico "Ursula K. Le Guin", penserete a come riesca a essere così chiara e concreta pur trasmettendo una sensazione lirica — non riesco davvero a descrivere bene il suo stile, ma i lettori di Le Guin sanno cosa intendo.

In definitiva, ciò che intendo dire è che il modo corretto per valutare quanto un testo "sembri generato dall'IA" non consiste nel verificare se sia prevedibile in generale — la maggior parte dei testi ben scritti è in qualche modo prevedibile —, ma nel misurare la divergenza di KL tra la distribuzione di output del modello e quella di un autore specifico: D_KL(P_autore || Q_modello). Per chi non ha familiarità con la divergenza KL, questa misura quanto la distribuzione del modello non riesca a coprire le scelte dell'autore (per essere precisi, misura il costo aggiuntivo previsto delle informazioni per codificare campioni da P usando un codice ottimizzato per Q). Quando questa divergenza è ampia e strutturata, si sente una voce.

La trappola RLHF e il "dialetto di consenso dell'annotatore"

Durante la fase di pre-addestramento, un modello linguistico di grandi dimensioni genera una mappa della distribuzione generalizzata del testo umano. Questa distribuzione di base, Q_base, è estremamente ampia. Nel suo spazio latente è in grado di approssimare praticamente qualsiasi P_author.

La trappola di cui parlo parte proprio dall'allineamento. Per rendere il modello sicuro e utile, i laboratori applicano tecniche come l'apprendimento per rinforzo basato sul feedback umano (RLHF) e altre simili. I dettagli variano, ma il punto fondamentale è che il modello viene ottimizzato per produrre risultati che ottengono un punteggio elevato rispetto a un segnale di ricompensa derivato dalle preferenze umane (o dell'IA).

Questo non spinge il modello verso la media statistica dell'inglese. Lo spinge invece verso qualcosa con una distribuzione di probabilità diversa — chiamiamolo "dialetto di consenso degli annotatori".

Il meccanismo alla base di tutto questo è il seguente: quando i valutatori (lavoratori freelance incaricati di valutare i risultati, esperti o chiunque altro) valutano i risultati, uno stile di scrittura personale genera una forte variabilità nei punteggi. Il mio stile di scrittura potrebbe ottenere un punteggio di 5/5 da un valutatore e 2/5 da un altro. Ma una risposta sterile, simmetrica e fortemente cauta potrebbe ottenere un punteggio di 4/5 su tutta la linea. L'algoritmo di ottimizzazione impone che il modo più sicuro per massimizzare la ricompensa attesa sia ridurre la varianza. È l'equivalente conversazionale dell'arredamento della hall di un hotel.

Potresti obiettare: «Joe, questa non è una descrizione corretta! Le tecniche di allineamento più recenti sono state progettate proprio per preservare la diversità!». Sebbene ciò sia vero, i metodi più recenti continuano comunque a privilegiare un tipo di output “preferito”, che penalizza ancora l’assunzione di rischi ad alta varianza rispetto a una prosa sicura e ampiamente accettabile.

Si tratta di un'ipotesi verificabile (non l'ho verificata, ma è verificabile). Se si misurasse la divergenza di Kullback-Leibler tra i risultati allineati del modello e un corpus composto, ad esempio, da comunicazioni aziendali e narrativa letteraria, la mia previsione è che la distribuzione del modello risulterebbe molto più vicina al centro del corpus aziendale. Per quanto ne so, nessuno ha pubblicato questa misurazione specifica, ma i modelli matematici di ottimizzazione la prevedono con certezza.

L'illusione del camuffamento (perché la richiesta dello stile non funziona)

So cosa stai pensando: sì, ma puoi indurre il modello a uscire da questo dialetto. "Scrivi nello stile di un romanzo poliziesco hard-boiled degli anni '20" o qualcosa del genere (una parte di me vorrebbe vedere come risulterebbe questo articolo se chiedessi a un modello di riscriverlo come un testo di Lupe Fiasco). Questo produce effettivamente un testo che sembra diverso dal "dialetto di consenso dell'Annotator", ma risulta comunque sospettosamente uniforme.

Questo perché esiste una differenza matematica tra lo spostamento della media di una distribuzione e la riproduzione della sua struttura di varianza.

Quando si chiede a un modello di imitare un autore, il suo baricentro si sposta. Il modello calcola la media statistica del vocabolario, della struttura delle frasi e di altre caratteristiche stilistiche del modello di riferimento, e si sposta in quella direzione. Tuttavia, applica a questa nuova posizione lo stesso meccanismo di compressione della varianza di cui abbiamo parlato.

Lo stile umano si basa su un'irregolarità strutturata. Un autore ha un ritmo di base, ma lo rompe intenzionalmente inserendo, ad esempio, un frammento improvviso, un verbo insolito o una frase contorta per ottenere un effetto emotivo. La stilometria computazionale dispone di strumenti per misurare questo aspetto: gli esponenti di Hurst applicati a serie temporali relative alla lunghezza delle frasi possono rivelare dipendenze a lungo raggio nella scrittura umana che mancano nei testi generati dall'IA. Gli autori umani modulano la loro diversità lessicale in modi che i modelli non sono in grado di riprodurre.

In sostanza, quando si richiede un testo scritto in uno stile particolare, il modello ne rileva le caratteristiche tipiche ma ne attenua tutte le asperità. Il risultato è una sorta di caricatura di ciò che si è richiesto.

Il fallimento di "Temperature and Friends"

Se la distribuzione dell'IA è troppo ristretta, perché non possiamo semplicemente ampliarla?

L'approccio più comune è il ridimensionamento della temperatura. Quando si aumenta la temperatura T, si dividono i logit grezzi del modello per T prima di calcolare le probabilità; ciò appiattisce l'intera distribuzione e costringe il modello a scegliere parole meno probabili. Tuttavia, lo fa in modo indiscriminato. L'eccentricità di un autore umano è altamente contestuale. Gli esseri umani infrangono le regole in modi molto specifici e coerenti, mentre il ridimensionamento della temperatura introduce semplicemente rumore stocastico.

Spero che questo sia abbastanza intuitivo: in definitiva, aumentando la temperatura si passa semplicemente da un andamento "sospettosamente regolare" a uno "sospettosamente casuale", senza passare affatto per quello umano.

So che esistono strategie di decodifica più sofisticate. Il campionamento top-p (nucleo), il filtraggio top-k, le penalità di ripetizione e la guida senza classificatore mirano tutti a una ridistribuzione più mirata. Sono certamente utili in una certa misura, ma nessuna di esse risolve il problema fondamentale, ovvero che si tratta di interventi in fase di inferenza che operano su un modello la cui intera filosofia operativa (se così si può definire) è stata plasmata durante l'allineamento.

C'è anche un'importante sfumatura che uno dei miei amici mi ha fatto notare di recente: l'allineamento non cancella la capacità latente del modello di base di variare stilisticamente. I pesi pre-addestrati continuano a codificare gran parte della ricchezza di Q_base, purché si disponga di un numero sufficiente di pesi. Esistono tecniche emergenti di steering in fase di inferenza, come il Representation Engineering, in grado di recuperare parzialmente la varianza soppressa attingendo allo spazio latente sottostante. Si tratta tuttavia di aree di ricerca e non di qualcosa di disponibile nei prodotti di IA accessibili al pubblico.

Allo stesso modo, l'apprendimento in-context con contesti lunghi può fornire risultati leggermente migliori, ma i meccanismi di attenzione si indeboliscono quando il contesto diventa sufficientemente ampio (e si tenderà a tornare alla distribuzione uniforme man mano che il contesto cresce).

E allora?

Il punto fondamentale è che le scelte progettuali alla base delle tecniche correlate al RLHF finiranno per rendere queste "voci" dell'IA individuabili per molto più tempo di quanto chiunque voglia ammettere.

Inoltre, è utile pensare allo stile di un autore come a una specifica distribuzione di probabilità ad alta dimensione, e vi sfido a provare a individuare da soli alcuni valori della divergenza KL la prossima volta che leggerete il vostro autore preferito. Da dove proviene la voce dell'autore? È un esercizio divertente che potrebbe aumentare il vostro piacere di lettura, e il difficile processo di mettere in pratica e interiorizzare nuove conoscenze è un'ottima cosa da fare in questi tempi di atrofia delle competenze indotta dai modelli linguistici di grande dimensione (LLM).

Joe Stech

Joe StechAutore ospite

Joe Stech è il curatore della collana antologica annuale *Think Weirder: The Year's Best Science Fiction Ideas*. Lavora inoltre come Principal Solutions Architect nel settore dello sviluppo e dell'abilitazione delle piattaforme presso Arm. Le opinioni qui espresse sono esclusivamente sue.

Altri articoli di Joe Stech

Altre letture

Pangram Space: un progetto di ricerca interattivo

Pangram Space: un progetto di ricerca interattivo

Vi presentiamo Pangram Space, un esploratore interattivo di embedding dedicato alle attivazioni interne di Pangram 3. 3. 2.

Elyas Masrour18 giugno 2026

Gli esperti di marketing stanno sprecando il budget pubblicitario in contenuti generati dall'intelligenza artificiale

Gli esperti di marketing stanno sprecando il budget pubblicitario in contenuti generati dall'intelligenza artificiale

Man mano che i modelli di linguaggio di grandi dimensioni (LLM) diventeranno più sofisticati, i truffatori e gli spammer si renderanno conto dell'opportunità di utilizzare l'intelligenza artificiale generativa per diffondere su larga scala contenuti non autentici sul web con l'intento di appropriarsi dei proventi pubblicitari.

Ashan Marla24 giugno 2024

Vi presentiamo Open Pangram

Vi presentiamo Open Pangram

Annunciamo il rilascio di versioni di Pangram con modelli di peso aperti e codice sorgente disponibile, basate sulla tecnologia EditLens che abbiamo presentato nel nostro articolo all'ICLR 2026.

Katherine Thai24 marzo 2026

Pangram stringe una partnership con Proofig AI per integrare la funzione di rilevamento della scrittura generata dall'intelligenza artificiale in PubShield

Pangram stringe una partnership con Proofig AI per integrare la funzione di rilevamento della scrittura generata dall'intelligenza artificiale in PubShield

Pangram e Proofig AI hanno stretto una partnership per fornire strumenti più efficaci in materia di integrità e trasparenza a ricercatori, istituzioni e testate editoriali.

Max Spero19 febbraio 2026

Tremau e Pangram Labs stringono una partnership per affrontare la sfida dei contenuti generati dall'intelligenza artificiale

Tremau e Pangram Labs stringono una partnership per affrontare la sfida dei contenuti generati dall'intelligenza artificiale

Mentre ci avviciniamo a quello che si preannuncia come l'anno elettorale più importante della storia, l'intersezione tra tecnologia e democrazia torna ancora una volta sotto i riflettori.

Max Spero e Tremau17 aprile 2024

Le ultime novità nella ricerca sul rilevamento tramite IA

Le ultime novità nella ricerca sul rilevamento tramite IA

Il pangram è sempre più presente nelle ricerche pubblicate nel campo del rilevamento dell'intelligenza artificiale.

Elyas Masrour4 marzo 2025

Iscriviti a
per ricevere i nostri aggiornamenti

Rimani aggiornato con le nostre ultime novità e offerte.

soc2

SOC2 TIPO 2

Verificato da AssuranceLab

© 2025 Pangram. Tutti i diritti riservati.

info@pangram.com

Entra a far parte della nostra community

© 2025 Pangram. Tutti i diritti riservati.

La teoria dell'informazione alla base del perché i testi generati dall'IA fanno schifo | Pangram Labs