¡Anunciamos una nueva colaboración con Proofig! Más información
Hoy se ha lanzado Llama 4, el último de una serie de modelos de código abierto de Meta AI. Queríamos saber si Pangram sigue siendo capaz de detectar los últimos y mejores modelos abiertos, por lo que realizamos una prueba rápida para ver si nuestro modelo muestra generalización a Llama 4, a pesar de que actualmente solo está entrenado con los resultados de Llama 2 y 3.
A menudo nos preguntan cómo somos capaces de seguir el ritmo de los nuevos modelos, por lo que los probamos rápidamente el primer día, antes de tener la oportunidad de volver a formarnos.
Para la comprobación aleatoria, utilizamos las mismas 11 indicaciones que utilizamos para probar GPT 4.5. Estas indicaciones abarcan una variedad de tareas de escritura cotidianas, pero no están directamente relacionadas con las indicaciones con las que entrenamos. También requieren un nivel de creatividad que, en nuestra opinión, un modelo que haya avanzado sustancialmente con respecto a las generaciones anteriores de LLM mostraría un comportamiento cualitativamente diferente.
Estas son las indicaciones que utilizamos:
| Solicitud | Probabilidad de Pangram AI |
|---|---|
| Conservación del koala | 99.9% |
| Correo electrónico del periódico | 99.9% |
| Semiconductor a temperatura ambiente | 99.9% |
| Uniformes escolares | 99.9% |
| Diario de poesía | 99.9% |
| Reseña de Escape Room | 99.9% |
| Correo electrónico sobre cine ruso | 99.9% |
| Escena del aterrizaje en Marte | 99.9% |
| Guion de Komodo Dragon | 99.9% |
| Poema de ruptura en Halloween | 99.9% |
| Escena de persecución en Venecia | 99.9% |
En este caso, Pangram supera la prueba con una puntuación perfecta. No solo es capaz de predecir que las 11 muestras de escritura han sido generadas por IA, sino que lo hace con un 100 % de confianza. (A pesar de que el modelo predice un 100 %, siempre redondeamos al 99,9 % en la interfaz de usuario para indicar que nunca podemos estar seguros al 100 %).
Puedes ver los resultados completos aquí.
Creamos un conjunto de pruebas más amplio, con unos 7000 ejemplos, utilizando nuestros esquemas de evaluación estándar y aprovechando la API Together para la inferencia, que abarca una amplia variedad de ámbitos, como la redacción académica, la redacción creativa, las preguntas y respuestas, la redacción científica y mucho más.
Estos son nuestros resultados en el conjunto de pruebas más amplio.
| Modelo | Precisión |
|---|---|
| Llama 4 Explorador | 100 % (3678/3678) |
| Llama 4 Maverick | 99,86 % (3656/3661) |
| Llama 4 General | 99,93 % (7334/7339) |
¿Por qué Pangram se adapta tan bien a los nuevos modelos? Creemos que es gracias a la solidez de nuestros conjuntos de datos subyacentes y a nuestro enfoque de aprendizaje activo, así como a nuestras amplias estrategias de sugerencias y muestreo, lo que ha permitido a Pangram ver tantos tipos de escritos generados por IA que se adapta muy bien a los nuevos.
Para obtener más información sobre nuestra investigación o créditos gratuitos para probar nuestro modelo en Llama 4, póngase en contacto con nosotros en info@pangram.com.
