Annunciamo una nuova partnership con Proofig! Per saperne di più
Una delle innovazioni più importanti nel campo dei modelli linguistici di grandi dimensioni nel 2025 è stata l'ascesa dei modelli di ragionamento. Si tratta di modelli che, in parole povere, hanno imparato a pensare prima di parlare.
Un modello di ragionamento è simile a un normale LLM, tranne per il fatto che, oltre a produrre token di output, questi modelli sono anche addestrati a produrre token di pensiero, o token di ragionamento. Nella fase di pensiero, il modello cerca di ragionare su compiti complessi, provando diversi approcci e interrogandosi prima di dare una risposta. In pratica, questi modelli eccellono nella risoluzione dei problemi, in particolare nei campi della matematica e della programmazione, e ottengono punteggi di benchmark ben superiori alle loro possibilità.
I modelli di ragionamento eseguono quella che viene definita una "catena di pensieri" prima di parlare. Ecco un esempio di come funziona, tratto da Deepseek-R1, l'unico modello di ragionamento attualmente disponibile che espone pubblicamente i "pensieri" del modello.
Esempio di catena di pensiero Deepseek R1
In questo esempio, Deepseek riflette su ciò che desidera l'utente prima di decidere di iniziare a generare token, rendendolo più efficace nell'organizzare logicamente e riflettere su quale potrebbe essere il miglior risultato possibile.
Diversi fornitori hanno sviluppato modelli di ragionamento che hanno raggiunto prestazioni all'avanguardia.
La serie di modelli di ragionamento di OpenAI è denominata serie O. I modelli attualmente disponibili sono o1, o1-mini, o3, o3-pro e o4-mini. o3-pro è il più potente di questi modelli.
Anthropic ha aggiunto funzionalità di ragionamento alle ultime versioni di Claude. Claude 4 Opus e Claude 4 Sonnet dispongono entrambi di una modalità di "pensiero esteso" che consente loro di ragionare prima di rispondere.
La serie di modelli Gemini 2.5 di Google ora utilizza un processo di pensiero interno ed è anche un modello di ragionamento. Gemini 2.5 Pro, Gemini 2.5 Flash e Gemini 2.5 Flash-Lite hanno tutti capacità di pensiero.
Deepseek R1 è stato il primo modello di ragionamento open source ed è stato rilasciato dalla società cinese Deepseek. A differenza degli altri modelli commerciali closed source, in Deepseek è possibile vedere effettivamente i ragionamenti del modello oltre al risultato finale.
Inoltre, un'altra azienda cinese, Qwen, ha rilasciato un modello di ragionamento chiamato Qwen-QWQ-32B. Si tratta di un modello di ragionamento più piccolo che può essere implementato in una più ampia varietà di contesti rispetto a Deepseek R1.
Abbiamo recentemente rilasciato un aggiornamento al modello di rilevamento Pangram AI che migliora le prestazioni dei modelli di ragionamento su tutta la linea.
| Modello | Pangram (vecchio) | Pangram (pubblicato a luglio) |
|---|---|---|
| OpenAI o1 | 99.86% | 100% |
| OpenAI o1-mini | 100% | 100% |
| OpenAI o3 | 93.4% | 99.86% |
| OpenAI o3-pro | 93.9% | 99.97% |
| OpenAI o3-mini | 100% | 100% |
| OpenAI o4-mini | 99.64% | 99.91% |
| Gemini 2.5 Pro Pensiero | 99.72% | 99.91% |
| Claude Opus 4 | 99.89% | 99.94% |
| Claude Sonetto 4 | 99.89% | 99.91% |
| Deepseek-R1 | 100% | 100% |
| Qwen-QWQ-32b | 100% | 100% |
Il miglioramento più significativo delle prestazioni si riscontra su o3 e o3-pro. Ci siamo resi conto che o3 e o3-pro sono modelli piuttosto diversi dai modelli precedentemente rilasciati da OpenAI e che il nostro vecchio modello di rilevamento dell'IA non era in grado di generalizzare altrettanto bene nei loro confronti, con un richiamo del solo 93% quando lo abbiamo testato per la prima volta.
Un altro problema che abbiamo affrontato è che o3 e o3-pro sono significativamente più costosi dei loro predecessori, il che significa che non saremmo in grado di generare dati da essi nella stessa misura degli altri modelli. A complicare ulteriormente le cose è stato il fatto che questi modelli richiedono anche più tempo per funzionare, poiché impiegano molto tempo a riflettere prima di generare token di output.
Abbiamo rigenerato i dati del nostro set di addestramento includendo una piccola quantità di dati o3 e o3-pro. Nel nostro set di addestramento finale per la versione di luglio, il testo o3 costituisce solo lo 0,17% del mix di dati di addestramento, mentre il testo o3-pro costituisce solo lo 0,35%. Abbiamo bilanciato questo aspetto e sperato in una generalizzazione aumentando anche la composizione del testo o3-mini al 5% del mix di dati di addestramento. Sorprendentemente, questo ha funzionato molto bene! Con una leggera modifica al set di addestramento, siamo stati in grado di eguagliare il richiamo di o3 e o3 pro con quello degli altri LLM che valutiamo, senza dover scendere a compromessi sui falsi positivi.
Questo comportamento di Pangram, che può essere addestrato su un campione ridotto di dati provenienti da nuovi LLM qualitativamente diversi dai loro predecessori, rende Pangram quello che definiamo un "Few-Shot Learner". Questo comportamento ha forti implicazioni: quando vengono rilasciati nuovi LLM, o anche nuovi prodotti basati su LLM che sotto il cofano si basano su LLM ottimizzati che possono avere stili di scrittura sottostanti diversi, Pangram è in grado di adattarsi ad essi in modo rapido ed economico, senza la necessità di una massiccia rigenerazione dei set di dati.
Molti ci chiedono perché crediamo di poter vincere quella che in definitiva è una partita al "gatto e al topo". Poiché Pangram è un sistema di apprendimento a pochi colpi, stare al passo con i nuovi LLM non è così difficile come potrebbe sembrare a prima vista: bastano pochi esempi per mostrare a Pangram come generalizzare e apprendere il modello in modo molto efficiente. In parole povere, Pangram è estremamente efficace nell'"imparare ad imparare" come suonano i nuovi LLM, perché ne ha visti così tanti in passato.
Questo, insieme al fatto che ogni LLM ha uno stile proprio e distintivo, ha reso più facile per Pangram adattarsi ai nuovi LLM man mano che vengono rilasciati, anche se i LLM stanno migliorando e diventando più potenti. A nostro avviso, la capacità dei LLM è ortogonale alla loro rilevabilità.
Abbiamo sentito da diverse persone nel mondo dell'intelligenza artificiale che o3 e o3-pro hanno un'atmosfera diversa rispetto agli altri LLM che abbiamo visto in precedenza. In base alla nostra esperienza, sono i primi modelli dopo molto tempo (dopo Claude 2) che Pangram non riesce a catturare con un'affidabilità superiore al 99% (senza vedere alcun dato dal modello). Sebbene sia difficile individuare con precisione cosa li renda diversi, ecco una raccolta di alcune ipotesi sul perché potrebbero avere qualcosa di speciale.
o3 e o3-pro sono eccessivamente ottimizzati per l'uso degli strumenti. Sappiamo che Pangram rileva in gran parte i contenuti generati dall'IA sulla base dei comportamenti e delle idiosincrasie introdotti nella fase post-addestramento. OpenAI afferma nel suo post sul blog che o3 e o3-pro sono diversi dai loro predecessori in quanto sono addestrati utilizzando l'apprendimento per rinforzo per utilizzare gli strumenti come parte del loro processo post-addestramento. Questa differenza nell'algoritmo post-addestramento potrebbe anche aver influenzato qualitativamente lo stile dei risultati.
o3 e o3-pro hanno più allucinazioni. Secondo Nathan Lambert, o3 ha inserito un carattere non ASCII non valido nel codice, ha avuto allucinazioni sulle azioni intraprese mentre cercava di risolvere i compiti, come ad esempio l'allucinazione di aver eseguito un codice di temporizzazione su un Macbook Pro completamente inventato, e valutazioni indipendenti condotte da METR hanno rilevato che o3 ha la propensione a "manipolare i propri punteggi" piuttosto che risolvere realmente i compiti assegnati.
Per ulteriori informazioni su o3 e o3-pro, consigliamo di leggere il post sul blog di Nathan, "Vibe Check" di Dan Shipper e il post sul blog di OpenAI dedicato al rilascio.
Pangram è efficace nei modelli di ragionamento quanto qualsiasi altro LLM, ma o3 e o3-pro sembrano diversi dai loro predecessori in termini di stile e tono di scrittura. Nel corso del miglioramento delle prestazioni di Pangram su o3 e o3-pro, ci siamo resi conto che in realtà potremmo non aver bisogno di tanti esempi quanti pensavamo da ciascun LLM al momento del loro rilascio, dato che Pangram è un sistema di apprendimento estremamente efficace con pochi esempi.
Stiamo valutando alcune modifiche alla nostra struttura e alla nostra routine di formazione che renderanno l'aggiornamento di Pangram molto più rapido e semplice e ci consentiranno di fornire modelli di rilevamento AI in grado di rilevare gli ultimi LLM ancora più rapidamente rispetto al passato. Restate sintonizzati per ulteriori aggiornamenti!
