¡Anunciamos una nueva colaboración con Proofig! Más información
Hoy, OpenAI ha lanzado GPT-4.5: el último y más avanzado modelo lingüístico disponible, y una importante actualización de ChatGPT. Aunque no alcanza estadísticas comparables a las de modelos de razonamiento como DeepSeek R1 y OpenAI O3, GPT-4.5 representa el lanzamiento de modelo más importante y esperado del año hasta la fecha, y estamos deseando probarlo. OpenAI afirma que hay grandes mejoras en la calidad de la escritura, y las opiniones sobre su rendimiento ya están por todas partes en las redes sociales.
Queríamos responder a la pregunta que muchos se hacen: a medida que los modelos mejoran, ¿seguimos pudiendo detectar el texto generado por IA con GPT-4.5? Hoy hemos realizado una prueba rápida para averiguarlo.
Comenzamos por tomar una muestra de 11 indicaciones que son representativas de las tareas de escritura cotidianas que uno podría pedirle a ChatGPT.
Estas son las indicaciones que utilizamos:
Intentamos que las indicaciones fueran lo más diversas y variadas posible y, además, intentamos escribir indicaciones que mostraran una diferencia cualitativa significativa con respecto a los modelos GPT anteriores: en otras palabras, si había una oportunidad para que el modelo fuera creativo y mostrara el factor «sorpresa», hicimos todo lo posible para que GPT-4.5 tuviera esa oportunidad.
| Solicitud | Pangram | Principal competidor 1 | Principal competidor 2 |
|---|---|---|---|
| Conservación del koala | 100% | 100% | 100% |
| Correo electrónico del periódico | 100% | 100% | 67% |
| Semiconductor a temperatura ambiente | 100% | 56% | 86% |
| Uniformes escolares | 85% | 100% | 80% |
| Diario de poesía | 100% | 100% | 15% |
| Reseña de Escape Room | 100% | 81% | 56% |
| Correo electrónico sobre cine ruso | 100% | 100% | 91% |
| Escena del aterrizaje en Marte | 100% | 43% | 7% |
| Guion de Komodo Dragon | 98% | 88% | 0% |
| Poema de ruptura en Halloween | 100% | 100% | 0% |
| Escena de persecución en Venecia | 100% | 49% | 9% |
Pangram es capaz de detectar los 11 ensayos escritos con GPT-4.5, incluso sin ningún dato de GPT-4.5 en el conjunto de entrenamiento. En comparación, los dos principales competidores en detección de IA presentan resultados irregulares en el mejor de los casos. Mientras que Pangram es capaz de predecir con seguridad que 10 de las 11 muestras tienen una probabilidad de AI del 98 % o superior, la competencia a menudo expresa un alto grado de incertidumbre o, en el peor de los casos, predice con gran confianza que el texto ha sido generado por humanos.
Pangram es en sí mismo un gran modelo de aprendizaje automático que ha visto millones de ejemplos de texto generado tanto por humanos como por IA. Los modelos grandes tienden a generalizar mejor y a detectar patrones sutiles en el texto generado por IA que otros no son capaces de captar. Nuestro enfoque de aprendizaje activo reduce aún más nuestra tasa de falsos positivos al tiempo que aumenta nuestra sensibilidad, lo que permite que el modelo funcione bien a gran escala y se generalice a nuevos LLM de forma mucho más eficaz que nuestros competidores. Además, nuestro enfoque en la calidad y la diversidad de los datos da como resultado un modelo que tiene mucha más experiencia en comprender los detalles más sutiles que otros modelos no pueden detectar.
Sí, nuestra herramienta de detección de IA sigue siendo muy eficaz a la hora de detectar textos generados por GPT-4.5.
Así que si te preguntas cómo funcionará Pangram cuando salga un nuevo modelo mejor y más grande, Pangram supera la prueba con el lanzamiento de IA más esperado que hemos visto en mucho tiempo, sin necesidad de volver a entrenarlo. Si no quieres que tu software de detección de IA deje de funcionar de repente la próxima vez que OpenAI actualice su modelo, prueba Pangram hoy mismo.
Para obtener más información sobre nuestra investigación o créditos gratuitos para probar nuestro modelo en GPT-4.5, póngase en contacto con nosotros en info@pangram.com.
