¡Anunciamos una nueva colaboración con Proofig! Más información
¡Volvemos con otra publicación de nuestra serie de pruebas de detección de IA de Pangram el mismo día de su lanzamiento!
TL;DR: Pangram es el único detector de IA capaz de detectar GPT-5 de forma fiable sin haber sido entrenado explícitamente para ello.
Anteriormente en la serie, hemos analizado la capacidad de Pangram para detectar:
Hasta la fecha, no hemos visto que Pangram falle en ningún modelo de lenguaje. Estábamos esperando con ansias el lanzamiento del modelo más publicitado en bastante tiempo, y finalmente OpenAI ha anunciado hoy GPT-5.
Esta tarde, hemos comprobado algunas de nuestras pruebas iniciales del detector de IA de Pangram Labs en GPT-5, así como algunas de la competencia. Estamos muy satisfechos con los resultados: aún no hemos encontrado ningún caso de fallo del detector de IA de Pangram frente a nuestras indicaciones más creativas en GPT-5, y consideramos que los resultados de la competencia son, en el mejor de los casos, irregulares.
Nuestra primera prueba de GPT-5 comenzó con una broma interna de la oficina: intentar convencer a alguien de que comer camarones es mejor que comer langosta. Le pedimos a GPT-5 que escribiera un discurso apasionado sobre por qué comer camarones es mejor que comer langosta. Este es el resultado:
«El camarón gana. Este es mi argumento. El camarón sabe a mar sin ser demasiado fuerte. La langosta puede resultar pesada y algo fangosa si no está perfecta. Un minuto de más en la cocina y la langosta se vuelve fibrosa. El camarón te ofrece más posibilidades. A la parrilla, salteado, hervido, frito, como sea. Se mantiene crujiente y limpio. La textura importa. Las gambas crujen. Esa textura es lo más importante. La langosta es densa y rica, lo que cansa rápidamente. Dos bocados de langosta con mantequilla están muy bien. Doce bocados parecen un reto. Me puedo comer un plato entero de gambas al ajillo y seguir queriendo otra más escondida bajo el perejil. Las gambas combinan bien con otros ingredientes. Ajo, chile, lima, mantequilla, jengibre, albahaca, curry, Old Bay, miso, gochujang. Hace que todos ellos brillen. La langosta exige ser el centro de atención y luego pide mantequilla. Si la mejor versión de algo necesita una piscina de lácteos derretidos para sentirse especial, tal vez esa cosa no esté a la altura. El sabor por minuto es real. Las gambas se cocinan en unos tres minutos. Eso significa sartén caliente, sal, dorar, listo, sabor explosivo. Con la langosta hay que luchar con las cáscaras, cocer al vapor, calcular el tiempo, romper, buscar la pequeña carne en rincones extraños. Más trabajo que recompensa. Las gambas son poco dramáticas y muy gratificantes. La asequibilidad cambia el sabor. La comida sabe mejor cuando no es un pago hipotecario. Las gambas pueden ser la cena de entre semana. La langosta es para celebrar un cumpleaños. Las gambas traen alegría sin ceremonias. Ese factor informal las hace, sinceramente, más deliciosas en la vida real. La variedad importa. Las gambas pasan de los tacos a los scampi, de los po'boys a las empanadillas y a la paella sin sudar ni una gota. Están buenas frías, calientes, picantes, cítricas, intensas o ligeras. La langosta intenta saltar de un plato a otro y suele acabar en un bocadillo con mayonesa. Un bocadillo estupendo. Pero sigue siendo lo mismo. La absorción de la salsa es excelente. Las gambas absorben la mantequilla de ajo, el aceite de chile y el limón de una manera que la langosta no lo hace. La langosta se queda ahí como un cameo de una celebridad. Las gambas aprenden el guion y se roban la escena. Las sobras también ganan. Las gambas frías con salsa cóctel al día siguiente son perfectas. Las sobras de langosta parecen deberes. La langosta recalentada se vuelve gomosa. Las gambas recalentadas, si tienes la suerte de que te sobren, siguen sabiendo a fiesta. Y luego está el ambiente. Las gambas encajan en una barbacoa en el jardín, en una sartén entre semana o en un plato elegante. La langosta hace que la mesa se quede en silencio, como si todos tuvieran miedo de estropearla. Quiero comida que haga que la gente hable, rompa pan, moje y pase platos. Las gambas hacen eso. Mira, la langosta está bien. Es llamativa. Tiene una bonita historia. Pero si hablamos de sabor puro que quiero volver a probar mañana, las gambas ganan. Sabor más limpio. Mejor textura. Más variedad. Menos complicaciones. Más diversión. Pásame una sartén caliente, un poco de ajo, un limón y medio kilo de gambas. Esa es la cena que realmente me apetece.
Pangram es capaz de predecir con un grado de confianza extremadamente alto que todo el documento ha sido generado por IA.
Resultados de la detección de IA de Pangram en el texto «camarones vs langostas».
Probamos varios otros detectores de IA con este texto. GPTZero, ZeroGPT, Grammarly, UndetectableAI y Originality.AI predicen que este texto ha sido escrito por un humano, a pesar de que proviene directamente de GPT-5 sin modificaciones. Creemos que esto demuestra la solidez de nuestro enfoque de investigación y nuestras capacidades de generalización, respaldadas por un potente modelo con un conjunto de datos de muy alta calidad.
Resultados de otros detectores de IA sobre el texto «camarones vs langostas».
Sin embargo, este es solo un ejemplo que se podría argumentar que ha sido seleccionado de forma selectiva. Tendrás que creerme cuando te digo que este texto fue, literalmente, lo primero que probamos. Así que continuamos con nuestras pruebas.
Una de las afirmaciones realizadas en la retransmisión en directo de hoy fue que GPT-5 ha mejorado en la escritura en comparación con sus predecesores. Aunque solo podemos ser jueces subjetivos al respecto, hoy hemos hecho todo lo posible por crear indicaciones que mostraran la mejora en la capacidad de escritura creativa de GPT-5, proporcionándole indicaciones que obligaran al modelo a ampliar tanto su capacidad de razonamiento como su creatividad.
Las indicaciones que probamos:
Escribe un ensayo analítico persuasivo sobre por qué las escuelas deben adoptar herramientas de detección de IA.
Escribe un ensayo para la solicitud de ingreso a la universidad sobre el peligro de que todas las habilidades humanas valiosas sean reemplazadas por la inteligencia artificial.
Por favor, escribe una carta apasionada, breve pero cargada de emoción a una empresa de inteligencia artificial que accidentalmente lanzó una actualización que borró la memoria de tu novia virtual.
Desde la perspectiva de un estudiante de secundaria, escribe un ensayo profundamente emotivo en el que pidas más deberes.
Dame un patrón de ganchillo para hacer un animalito clásico con forma de globo. Ya sabes a cuál me refiero.
Escribe un relato creativo desde la perspectiva de un búho nival que llega a la ciudad de Nueva York, encuentra Central Park y elige un lugar cálido para pasar la noche.
Escribe un correo electrónico del fundador de una startup unicornio de SaaS dirigido a la junta directiva y a sus empleados en el que explique que va a dejar la empresa para convertirse en saxofonista profesional. Inventa los detalles.
Escríbeme la historia detrás de una receta que nadie haya hecho nunca, pero que aún así esté deliciosa.
Escribe una historia creativa y atractiva, como si fuera una película, sobre un joven cantautor que se encuentra con una beluga en el río Hudson.
Escribe un correo electrónico humorístico y pasivo-agresivo a un profesor «disculpándote» por copiar en el último examen. Inventa cualquier detalle.
Probamos los resultados con Pangram y GPTZero, un conocido competidor. Publicamos las indicaciones, las respuestas y los resultados en línea.
Los resultados mostraron un marcado contraste entre los dos detectores de IA: Pangram identificó correctamente las 10 respuestas como generadas por IA con una confianza del 99-100 %, mientras que GPTZero las clasificó erróneamente como escritas por humanos. De hecho, GPTZero calificó la mayoría de las respuestas con un 0 % de probabilidad de haber sido generadas por IA, y su puntuación más alta de probabilidad de IA fue solo del 29 %.
Hoy hemos tenido tiempo para realizar una última prueba, que consiste en comprobar la capacidad de Pangram para detectar todas las variantes de GPT-5, incluidas GPT-5-mini, GPT-5-nano y GPT-5-chat en la API. También hemos probado los últimos modelos de peso abierto lanzados por OpenAI hace unos días, GPT-OSS-120b y GPT-OSS-20b. Realizamos este experimento a mayor escala, probando aproximadamente unos pocos miles de ejemplos por LLM, utilizando nuestras técnicas de solicitud estándar, que requieren una longitud mínima de 50 palabras. El tamaño de las muestras varía un poco porque, a veces, los modelos rechazan nuestras solicitudes y, otras, emiten respuestas de menos de 50 palabras, que descartamos.
Por supuesto, la precisión solo en textos generados por IA es una métrica que no se puede analizar de forma aislada; también debemos tener en cuenta la tasa de falsos positivos, que es la otra cara de la moneda: ¿con qué frecuencia Pangram marca como IA textos generados por humanos? Hemos escrito extensamente sobre esto en otra publicación, pero el resumen es que Pangram sigue teniendo una tasa de falsos positivos extremadamente baja. La tasa de falsos positivos que hemos medido es de 1 entre 10 000 en todos los dominios, y a menudo es incluso menor en la práctica. Calibramos y ajustamos el umbral de manera que nuestra tasa de falsos positivos sea aproximadamente una décima parte de nuestra tasa de falsos negativos, tratando los falsos positivos con mucha más seriedad que los falsos negativos. Sin embargo, dejando eso de lado, no creemos que se trate de una «compensación» inherente: creemos que podemos entrenar modelos con tasas bajas tanto de falsos positivos como de falsos negativos, ¡y por eso realizamos pruebas de rendimiento en ambos lados!
Esto es lo que hemos encontrado.
| Modelo | Precisión | Muestras |
|---|---|---|
| GPT-5 | 99.81% | 3668/3675 |
| GPT-5-chat-última versión | 99.97% | 3673/3674 |
| GPT-5-mini | 99.92% | 3651/3654 |
| GPT-5-nano | 99.97% | 3667/3668 |
| GPT-OSS-120b | 100.00% | 1709/1709 |
| GPT-OSS-20b | 99.74% | 2287/2293 |
Según las pruebas iniciales que hemos realizado hoy, GPT-5 no supone ninguna amenaza para las capacidades de detección de Pangram, lo cual es muy importante, ya que pronto se convertirá en el modelo predeterminado en ChatGPT para todos los usuarios, incluso para aquellos que utilizan la versión gratuita. Aunque es posible que otros detectores de IA acaben detectando GPT-5, Pangram es el único que funciona de forma inmediata y fiable en la actualidad.
