Annunciamo una nuova partnership con Proofig! Per saperne di più
Oggi è stato rilasciato Llama 4, l'ultimo di una serie di modelli open source di Meta AI. Volevamo sapere se Pangram fosse ancora in grado di rilevare i modelli open source più recenti e avanzati, quindi abbiamo eseguito un rapido test per verificare se il nostro modello fosse in grado di generalizzare Llama 4, nonostante fosse stato addestrato solo sui risultati di Llama 2 e 3.
Spesso ci viene chiesto quanto siamo in grado di stare al passo con il ritmo dei nuovi modelli, motivo per cui li testiamo rapidamente il primo giorno, prima di avere la possibilità di riqualificarci.
Per il controllo a campione, abbiamo utilizzato gli stessi 11 prompt utilizzati per testare GPT 4.5. Questi prompt coprono una varietà di attività di scrittura quotidiane, ma non sono direttamente correlati ai prompt su cui abbiamo effettuato l'addestramento. Richiedono inoltre un livello di creatività tale da farci ritenere che un modello che abbia compiuto progressi sostanziali rispetto alle precedenti generazioni di LLM mostrerebbe un comportamento qualitativamente diverso.
Ecco i suggerimenti che abbiamo utilizzato:
| Sollecito | Probabilità Pangram AI |
|---|---|
| Conservazione dei koala | 99.9% |
| E-mail del giornale | 99.9% |
| Semiconduttore a temperatura ambiente | 99.9% |
| Divise scolastiche | 99.9% |
| Diario di poesia | 99.9% |
| Recensione Escape Room | 99.9% |
| Film russo Email | 99.9% |
| Scena dell'atterraggio su Marte | 99.9% |
| Komodo Dragon Script | 99.9% |
| Poema di rottura di Halloween | 99.9% |
| Scena dell'inseguimento a Venezia | 99.9% |
In questo caso, Pangram supera il test con un punteggio perfetto! Non solo è in grado di prevedere che tutti gli 11 campioni di scrittura sono stati generati dall'IA, ma è in grado di farlo con una certezza del 100%. (Nonostante il modello preveda il 100%, nell'interfaccia utente arrotondiamo sempre al 99,9% per segnalare che non possiamo mai essere sicuri al 100%).
Qui puoi vedere i risultati completi.
Abbiamo creato un set di test più ampio, composto da circa 7.000 esempi, utilizzando i nostri schemi di valutazione standard e sfruttando l'API Together per l'inferenza, coprendo un'ampia varietà di ambiti, tra cui scrittura accademica, scrittura creativa, domande e risposte, scrittura scientifica e altro ancora.
Ecco i nostri risultati sul set di test più ampio.
| Modello | Precisione |
|---|---|
| Llama 4 Scout | 100% (3678/3678) |
| Llama 4 Maverick | 99,86% (3656/3661) |
| Llama 4 Complessivo | 99,93% (7334/7339) |
Perché Pangram si adatta così bene ai nuovi modelli? Crediamo che sia grazie alla forza dei nostri set di dati sottostanti e al nostro approccio di apprendimento attivo, nonché alle nostre ampie strategie di prompting e campionamento che hanno permesso a Pangram di vedere così tanti tipi di scrittura generata dall'IA da adattarsi molto bene a quelli nuovi.
Per ulteriori informazioni sulla nostra ricerca o per ottenere crediti gratuiti per provare il nostro modello su Llama 4, contattateci all'indirizzo info@pangram.com.
