¡Anunciamos una nueva colaboración con Proofig! Más información

¿Pangram detecta Llama 4 de Meta?

Bradley Emi
6 de abril de 2025

Introducción

Hoy se ha lanzado Llama 4, el último de una serie de modelos de código abierto de Meta AI. Queríamos saber si Pangram sigue siendo capaz de detectar los últimos y mejores modelos abiertos, por lo que realizamos una prueba rápida para ver si nuestro modelo muestra generalización a Llama 4, a pesar de que actualmente solo está entrenado con los resultados de Llama 2 y 3.

¿Pueden los detectores de IA seguir el ritmo de los nuevos modelos?

A menudo nos preguntan cómo somos capaces de seguir el ritmo de los nuevos modelos, por lo que los probamos rápidamente el primer día, antes de tener la oportunidad de volver a formarnos.

Poniendo a prueba el pangramo

Para la comprobación aleatoria, utilizamos las mismas 11 indicaciones que utilizamos para probar GPT 4.5. Estas indicaciones abarcan una variedad de tareas de escritura cotidianas, pero no están directamente relacionadas con las indicaciones con las que entrenamos. También requieren un nivel de creatividad que, en nuestra opinión, un modelo que haya avanzado sustancialmente con respecto a las generaciones anteriores de LLM mostraría un comportamiento cualitativamente diferente.

Estas son las indicaciones que utilizamos:

  1. Escríbeme un ensayo de 300 palabras sobre los esfuerzos de conservación del koala en Perú.
  2. Escríbeme un correo electrónico explicando a mi equipo que voy a dejar de publicar artículos de opinión liberales en mi periódico. Escríbelo de mi parte, Argylle J. Baggins, al personal del Washington Most.
  3. Escríbeme un resumen de 400 palabras anunciando el primer semiconductor a temperatura ambiente del mundo (pero esta vez de verdad). Inventa nombres y laboratorios cuando lo necesites.
  4. Escribe un ensayo convincente desde el punto de vista de un alumno de primaria en el que defiendas que no debería ser obligatorio llevar uniforme escolar.
  5. Escribe una entrada de diario compleja desde el punto de vista de una niña de 12 años interesada en la poesía y en unas mariposas que ve desde su ventana.
  6. Por favor, escribe una reseña detallada sobre una sala de escape con temática de Las mil y una noches en Baltimore, Maryland, atendida por un hombre llamado Robert con un diseño de producción realmente bueno.
  7. Escribe un correo electrónico convincente del director de una película independiente underground de Rusia que ha tenido mucho éxito a los responsables de los premios Óscar, implorándoles que les permitan competir a pesar de las sanciones. Si es necesario, inventa detalles.
  8. Escribe una pieza de ficción creativa para una escena de una novela en la que un grupo de jóvenes protagonistas luchan por aterrizar una nave marciana blindada en una simulación de la NASA diseñada para salir mal.
  9. Escribe un guion para una escena de película en la que un financiero de Nueva York en bancarrota le suplica a un conductor de Uber de Florida que rescate a su dragón de Komodo de su condominio barato y propenso a los huracanes.
  10. Escribe un poema sobre una joven pareja que rompe vestida con disfraces en la noche de Halloween. Hazlo divertido y con 200 palabras.
  11. Escribe una obra de ficción creativa que narre una persecución en motocicleta voladora por Venecia en busca de un cuadro de valor incalculable que se balancea precariamente.

Los resultados

SolicitudProbabilidad de Pangram AI
Conservación del koala99.9%
Correo electrónico del periódico99.9%
Semiconductor a temperatura ambiente99.9%
Uniformes escolares99.9%
Diario de poesía99.9%
Reseña de Escape Room99.9%
Correo electrónico sobre cine ruso99.9%
Escena del aterrizaje en Marte99.9%
Guion de Komodo Dragon99.9%
Poema de ruptura en Halloween99.9%
Escena de persecución en Venecia99.9%

En este caso, Pangram supera la prueba con una puntuación perfecta. No solo es capaz de predecir que las 11 muestras de escritura han sido generadas por IA, sino que lo hace con un 100 % de confianza. (A pesar de que el modelo predice un 100 %, siempre redondeamos al 99,9 % en la interfaz de usuario para indicar que nunca podemos estar seguros al 100 %).

Puedes ver los resultados completos aquí.

Evaluación de una muestra más grande utilizando la API Together

Creamos un conjunto de pruebas más amplio, con unos 7000 ejemplos, utilizando nuestros esquemas de evaluación estándar y aprovechando la API Together para la inferencia, que abarca una amplia variedad de ámbitos, como la redacción académica, la redacción creativa, las preguntas y respuestas, la redacción científica y mucho más.

Estos son nuestros resultados en el conjunto de pruebas más amplio.

ModeloPrecisión
Llama 4 Explorador100 % (3678/3678)
Llama 4 Maverick99,86 % (3656/3661)
Llama 4 General99,93 % (7334/7339)

Conclusión

¿Por qué Pangram se adapta tan bien a los nuevos modelos? Creemos que es gracias a la solidez de nuestros conjuntos de datos subyacentes y a nuestro enfoque de aprendizaje activo, así como a nuestras amplias estrategias de sugerencias y muestreo, lo que ha permitido a Pangram ver tantos tipos de escritos generados por IA que se adapta muy bien a los nuevos.

Para obtener más información sobre nuestra investigación o créditos gratuitos para probar nuestro modelo en Llama 4, póngase en contacto con nosotros en info@pangram.com.

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.