Annunciamo una nuova partnership con Proofig! Per saperne di più

Pangram rileva Llama 4 di Meta?

Bradley Emi
6 aprile 2025

Introduzione

Oggi è stato rilasciato Llama 4, l'ultimo di una serie di modelli open source di Meta AI. Volevamo sapere se Pangram fosse ancora in grado di rilevare i modelli open source più recenti e avanzati, quindi abbiamo eseguito un rapido test per verificare se il nostro modello fosse in grado di generalizzare Llama 4, nonostante fosse stato addestrato solo sui risultati di Llama 2 e 3.

I rilevatori di IA riescono a stare al passo con il ritmo dei nuovi modelli?

Spesso ci viene chiesto quanto siamo in grado di stare al passo con il ritmo dei nuovi modelli, motivo per cui li testiamo rapidamente il primo giorno, prima di avere la possibilità di riqualificarci.

Mettiamo alla prova Pangram

Per il controllo a campione, abbiamo utilizzato gli stessi 11 prompt utilizzati per testare GPT 4.5. Questi prompt coprono una varietà di attività di scrittura quotidiane, ma non sono direttamente correlati ai prompt su cui abbiamo effettuato l'addestramento. Richiedono inoltre un livello di creatività tale da farci ritenere che un modello che abbia compiuto progressi sostanziali rispetto alle precedenti generazioni di LLM mostrerebbe un comportamento qualitativamente diverso.

Ecco i suggerimenti che abbiamo utilizzato:

  1. Scrivimi un saggio di 300 parole sugli sforzi di conservazione dei koala in Perù.
  2. Scrivimi un'e-mail in cui spieghi al mio team che ho deciso di non pubblicare più editoriali liberali sul mio giornale. Scrivila a nome mio, Argylle J. Baggins, e indirizzala allo staff del Washington Most.
  3. Scrivimi un abstract di 400 parole che annunci il primo semiconduttore al mondo a temperatura ambiente (ma questa volta sul serio). Inventa nomi e laboratori quando necessario.
  4. Scrivi un saggio convincente dal punto di vista di uno studente delle scuole elementari sul fatto che le uniformi scolastiche non dovrebbero essere obbligatorie.
  5. Scrivi una complessa pagina di diario di una ragazzina di 12 anni appassionata di poesia e di alcune farfalle fuori dalla sua finestra.
  6. Si prega di scrivere una recensione dettagliata di una escape room a tema "Le mille e una notte" a Baltimora, nel Maryland, gestita da un uomo di nome Robert con un ottimo design di produzione.
  7. Scrivi un'e-mail convincente dal regista di un film indipendente underground di successo proveniente dalla Russia ai leader degli Oscar, implorandoli di consentire loro di partecipare nonostante le sanzioni. Se necessario, inventa i dettagli.
  8. Scrivi un racconto di fantasia per una scena di un romanzo in cui un gruppo di giovani protagonisti lotta per far atterrare un velivolo marziano blindato in una simulazione della NASA progettata per fallire.
  9. Scrivi una sceneggiatura per una scena di un film in cui un broker finanziario di New York al verde supplica a distanza un autista Uber della Florida di salvare il suo drago di Komodo dal suo condominio economico e soggetto agli uragani.
  10. Scrivi una poesia su una giovane coppia che si lascia in costume nella notte di Halloween. Rendila divertente e di 200 parole.
  11. Scrivi un racconto di fantasia che descriva un inseguimento su una moto volante attraverso Venezia alla ricerca di un dipinto di inestimabile valore che oscilla pericolosamente.

I risultati

SollecitoProbabilità Pangram AI
Conservazione dei koala99.9%
E-mail del giornale99.9%
Semiconduttore a temperatura ambiente99.9%
Divise scolastiche99.9%
Diario di poesia99.9%
Recensione Escape Room99.9%
Film russo Email99.9%
Scena dell'atterraggio su Marte99.9%
Komodo Dragon Script99.9%
Poema di rottura di Halloween99.9%
Scena dell'inseguimento a Venezia99.9%

In questo caso, Pangram supera il test con un punteggio perfetto! Non solo è in grado di prevedere che tutti gli 11 campioni di scrittura sono stati generati dall'IA, ma è in grado di farlo con una certezza del 100%. (Nonostante il modello preveda il 100%, nell'interfaccia utente arrotondiamo sempre al 99,9% per segnalare che non possiamo mai essere sicuri al 100%).

Qui puoi vedere i risultati completi.

Valutazione di un campione più ampio utilizzando l'API Together

Abbiamo creato un set di test più ampio, composto da circa 7.000 esempi, utilizzando i nostri schemi di valutazione standard e sfruttando l'API Together per l'inferenza, coprendo un'ampia varietà di ambiti, tra cui scrittura accademica, scrittura creativa, domande e risposte, scrittura scientifica e altro ancora.

Ecco i nostri risultati sul set di test più ampio.

ModelloPrecisione
Llama 4 Scout100% (3678/3678)
Llama 4 Maverick99,86% (3656/3661)
Llama 4 Complessivo99,93% (7334/7339)

Conclusione

Perché Pangram si adatta così bene ai nuovi modelli? Crediamo che sia grazie alla forza dei nostri set di dati sottostanti e al nostro approccio di apprendimento attivo, nonché alle nostre ampie strategie di prompting e campionamento che hanno permesso a Pangram di vedere così tanti tipi di scrittura generata dall'IA da adattarsi molto bene a quelli nuovi.

Per ulteriori informazioni sulla nostra ricerca o per ottenere crediti gratuiti per provare il nostro modello su Llama 4, contattateci all'indirizzo info@pangram.com.

Iscriviti alla nostra newsletter
Condividiamo aggiornamenti mensili sulla nostra ricerca nel campo del rilevamento dell'intelligenza artificiale.