Annunciamo una nuova partnership con Proofig! Per saperne di più
Foto di Tara Winstead.
Il mese scorso abbiamo pubblicato il nostro rapporto tecnico che ha confrontato in modo esaustivo il nostro modello con quello della concorrenza e con un metodo accademico di punta.
Oggi annunciamo il rilascio di un altro modello che migliora ulteriormente le nostre prestazioni su questo benchmark impegnativo.
| Precisione | Tasso di falsi negativi | Tasso di falsi positivi | |
|---|---|---|---|
| Modello febbraio | 99.0% | 1.30% | 0.67% |
| Modello di marzo | 99.84% | 0.11% | 0.19% |
Per produrre il nuovo modello, abbiamo utilizzato lo stesso approccio di apprendimento attivo utilizzato nel nostro rapporto tecnico, Hard Negative Mining with Synthetic Mirrors. Tuttavia, per questo aggiornamento, abbiamo notevolmente ampliato il nostro modello, aumentando il numero totale di parametri di un ordine di grandezza. Per farlo, abbiamo dovuto potenziare anche le risorse di calcolo necessarie per addestrare il nuovo modello e implementare il Low-Rank Adaptation (LoRA), una tecnica comunemente utilizzata per ottimizzare in modo efficiente gli LLM. Questo nuovo modello è anche la nostra prima versione di un modello addestrato sulle nuove GPU H100 di NVIDIA!
È stato riscontrato che i modelli più piccoli funzionano meglio per DetectGPT nel rilevare il testo generato dall'IA e abbiamo già discusso in precedenza della saturazione delle leggi di scalabilità nella nostra relazione tecnica. Ricapitolando, abbiamo riscontrato che l'aggiunta di ulteriori dati non migliora il modello oltre una soglia critica di dati (nel nostro caso, circa 40.000 documenti).
Inoltre, se si dà un'occhiata alla classifica di altre attività di classificazione del testo come MTEB, IMDB sentiment analysis e AGNews, si noterà che la classifica è ancora dominata da modelli come XLNet, DeBERTa e T5-XXL. Sebbene questi modelli siano architetture collaudate che hanno funzionato bene per anni in attività di classificazione semplici, sono ben lontani dalle dimensioni degli attuali modelli linguistici di grandi dimensioni all'avanguardia. Questi modelli in stile BERT hanno circa duecento milioni di parametri, mentre i principali LLM open source hanno ora decine di miliardi di parametri: una differenza enorme!
Il motivo per cui le architetture in stile LLM non funzionano bene nella classificazione dei testi è principalmente perché tendono facilmente all'overfitting. Come possiamo ottenere il meglio da entrambi i mondi: un modello che abbia molte più conoscenze "di base" come un LLM, ma che non vada in overfitting nei compiti di classificazione?
Nella nostra ultima versione, sfruttiamo una tecnica relativamente comune per la messa a punto di modelli linguistici di grandi dimensioni nota come LoRA.
Visualizzazione delle operazioni tensoriali LoRA tratte dall'articolo originale.
L'idea principale di LoRA è che, invece di ottimizzare l'intero modello, operazione che (1) richiede molto tempo e memoria, (2) è molto soggetta a overfitting e (3) può causare una perdita catastrofica dei dati di pre-addestramento, il modello LLM di base viene mantenuto invariato e i moduli adattatori vengono addestrati come reti secondarie accanto ai blocchi di attenzione principali dell'LLM. LoRA sta per "Low-Rank Adaptation" (adattamento a basso rango), il che significa che i moduli adattatori si scompongono perfettamente in matrici di pesi efficienti in termini di parametri, rendendoli molto veloci da addestrare ed efficienti in termini di memoria.
Questa figura tratta dal documento LoRA spiega bene l'idea. L'LLM originale è rappresentato solo dalla matrice W blu. I moduli arancioni possono essere addestrati, mentre il modulo blu dell'LLM originale rimane semplicemente bloccato mentre il modulo adattatore impara ad aggirarlo.
Abbiamo riscontrato che LoRA migliora significativamente le nostre prestazioni, riducendo sia i tassi di falsi positivi che quelli di falsi negativi.
La nostra ipotesi è che il miglioramento sia dovuto in gran parte alla maggiore quantità di conoscenze pre-addestramento contenute nell'LLM, che siamo in grado di sfruttare senza overfitting grazie all'idea dell'adattatore LoRA. Davvero interessante!
Continueremo ad apportare miglioramenti all'architettura nel tempo per rimanere al passo con le migliori architetture di deep learning disponibili. Abbiamo anche ulteriori miglioramenti architetturali e dei dati in cantiere, ma prima è il momento di creare un set di valutazione ancora più difficile!
Restate sintonizzati...
Vuoi metterti in contatto con noi? Inviaci un'e-mail all'indirizzo info@pangram.com!
