¡Anunciamos una nueva colaboración con Proofig! Más información
Nos complace conocer la nueva investigación de Jenna Russell, Marzena Karpinksa y Mohit Iyyer, colaboradores de la Universidad de Maryland y Microsoft, que demuestra que Pangram es el mejor sistema de detección de IA y el único que puede superar a los expertos humanos capacitados en la detección de contenido generado por IA. Lea el artículo completo aquí.

Además de estudiar la eficacia de los detectores automáticos de IA, los investigadores también profundizan en cómo los expertos humanos capacitados captan las señales que les ayudan a determinar los signos reveladores del contenido generado por IA. Creemos que esta investigación supone un gran avance para la explicabilidad y la interpretabilidad en la detección de IA, y estamos entusiasmados por seguir explorando esta línea de investigación.
En esta entrada del blog, explicaremos los aspectos más destacados de la investigación y lo que significa para el futuro de la detección de LLM.
En el pasado hemos escrito sobre cómo detectar la escritura generada por IA y la prueba de referencia humana, y cómo la utilizamos para obtener una valiosa intuición sobre el texto generado por IA que nos ayuda a desarrollar mejores modelos.
Normalmente, cuando empezamos a entrenarnos para detectar reseñas, ensayos, entradas de blog o noticias generadas por IA, al principio no se nos da muy bien. Se necesita un tiempo antes de que empecemos a detectar los signos reveladores de que un texto ha sido generado por ChatGPT u otro modelo de lenguaje. Por ejemplo, cuando empezamos a estudiar reseñas, aprendimos con el tiempo, al analizar una gran cantidad de datos, que a ChatGPT le encanta comenzar una reseña con la frase «Recientemente tuve el placer de...», o cuando empezamos a leer historias de ciencia ficción generadas por IA, estas suelen comenzar con la frase «En el año...». Sin embargo, con el tiempo, empezamos a interiorizar estos patrones y podemos empezar a reconocerlos.
Los investigadores también se preguntaron si se puede formar a expertos para detectar artículos generados por IA de la misma manera. Formaron a cinco anotadores en Upwork para detectar contenido generado por IA y compararon su capacidad para detectar la IA a simple vista con la de personas no expertas.
Aunque era de esperar que existiera una diferencia en la capacidad de estos dos grupos para detectar el texto escrito por IA, lo que los investigadores encontraron fue una brecha sustancial. Los no expertos obtienen resultados similares al azar a la hora de detectar texto generado por IA, mientras que los expertos son muy precisos (con una tasa de verdaderos positivos superior al 90 % de media).

Una sección que nos pareció muy interesante fue la titulada «¿Qué ven los anotadores expertos que los no expertos no ven?». Los investigadores pidieron a los participantes que explicaran por qué pensaban que un texto había sido generado por IA o no, y luego analizaron los comentarios de los participantes.
A continuación se presenta un análisis extraído directamente del artículo:
«Los no expertos suelen fijarse erróneamente en ciertas propiedades lingüísticas en comparación con los expertos. Un ejemplo es la elección del vocabulario, donde los no expertos consideran la inclusión de cualquier tipo de palabra «sofisticada» o poco frecuente como un indicio de que el texto ha sido generado por IA; por el contrario, los expertos están mucho más familiarizados con las palabras y frases exactas que la IA utiliza en exceso (por ejemplo, «testamento», «crucial»). Los no expertos también creen que los autores humanos son más propensos a formar oraciones gramaticalmente correctas y, por lo tanto, atribuyen las oraciones encadenadas a la IA, pero lo contrario es cierto: los humanos son más propensos que la IA a utilizar oraciones no gramaticales o encadenadas. Por último, los no expertos atribuyen cualquier texto escrito en un tono neutro a la IA, lo que da lugar a muchos falsos positivos, ya que la escritura formal humana también suele ser de tono neutro» (Russell, Karpinska e Iyyer, 2025).
En el apéndice, los autores proporcionan una lista de «vocabulario de IA» que utiliza habitualmente ChatGPT, una función que hemos incorporado recientemente al panel de control de Pangram y que destaca las frases de IA más utilizadas.

Según nuestra experiencia, hemos descubierto que, aunque mucha gente piensa que la IA utiliza un vocabulario sofisticado y «refinado», en la práctica observamos que la IA tiende a utilizar un vocabulario más cliché y metafórico que a menudo no tiene ningún sentido. De manera informal, diríamos que los LLM se parecen más a personas que intentan parecer inteligentes, pero que en realidad solo utilizan frases que creen que les harán parecer inteligentes.
Una pregunta que nos hacen mucho en Pangram es: ¿cómo se mantienen al día con los modelos más avanzados? Cuando los modelos lingüísticos mejoran, ¿significa eso que Pangram dejará de funcionar? ¿Es un juego del gato y el ratón en el que los laboratorios punteros como OpenAI nos ganarán?
Los investigadores también se preguntaron esto y estudiaron el rendimiento de varios métodos de detección de IA frente al o1-pro de OpenAI, el modelo más avanzado lanzado hasta la fecha.
Los investigadores descubrieron que Pangram tiene una precisión del 100 % en la detección de salidas o1-pro, y seguimos teniendo una precisión del 96,7 % en la detección de salidas o1-pro «humanizadas» (¡a las que llegaremos en un momento!). En comparación, ningún otro detector automático supera siquiera el 76,7 % en salidas o1-pro básicas.
¿Cómo es posible que Pangram pueda generalizar de esta manera? Al fin y al cabo, en el momento del estudio, ni siquiera teníamos datos o1-pro en nuestro conjunto de entrenamiento.
Al igual que todos los modelos de aprendizaje profundo, creemos en el poder de la escala y la computación. En primer lugar, partimos de un potente modelo base que se ha entrenado previamente con un enorme corpus de entrenamiento, al igual que los propios LLM. En segundo lugar, hemos creado un canal de datos diseñado para la escala. Pangram es capaz de realizar un reconocimiento sutil de patrones a partir de su corpus de entrenamiento de 100 millones de documentos humanos.
No nos limitamos a crear un conjunto de datos para ensayos, noticias o reseñas: intentamos obtener la red más amplia posible de todos los datos escritos por humanos que existen, de modo que el modelo pueda aprender a partir de la distribución de datos de mayor calidad y más diversa, y aprender sobre todo tipo de escritos humanos. Consideramos que este enfoque general de la detección de IA funciona mucho mejor que el enfoque especializado de crear un modelo por cada dominio textual.
Como complemento a nuestro enorme conjunto de datos humanos de alta calidad, contamos con nuestro canal de datos sintéticos y un algoritmo de búsqueda basado en el aprendizaje activo. Para obtener los datos de IA para nuestro algoritmo, utilizamos una exhaustiva biblioteca de indicaciones y todos los principales modelos de IA de código abierto y cerrado para generar datos sintéticos. Utilizamos indicaciones sintéticas espejo, sobre las que hemos escrito en nuestro informe técnico, y minería de negativos duros, que busca los ejemplos de nuestro conjunto de datos con el mayor error y crea ejemplos de IA muy similares a los humanos, y vuelve a entrenar el modelo hasta que no vemos más errores. Esto nos permite reducir de forma muy eficaz a cero las tasas de falsos positivos y falsos negativos de nuestro modelo.
En pocas palabras, nuestra generalización proviene de la escala de nuestros datos de preentrenamiento, la diversidad de indicaciones y LLM utilizados para la generación de datos sintéticos, y la eficiencia de los datos gracias a nuestro enfoque de aprendizaje activo y minería de negativos difíciles.
Además, no solo nos esforzamos por obtener un gran rendimiento fuera de la distribución, sino que también queremos asegurarnos de que la mayor cantidad posible de LLM comunes estén dentro de la distribución. Por lo tanto, hemos creado un sólido canal automatizado para extraer datos de los modelos más recientes, de modo que podamos comenzar a entrenar nuevos LLM tan pronto como se lancen y mantenernos actualizados. Consideramos que no se trata de una compensación entre equilibrar el rendimiento en diferentes modelos: observamos que cada vez que introducimos un nuevo LLM en el conjunto de entrenamiento, la generalización del modelo mejora.
Con nuestro sistema actual, no estamos observando que, a medida que los modelos mejoran, sean más difíciles de detectar. En muchos casos, el modelo de última generación es, en realidad, más fácil de detectar. Por ejemplo, descubrimos que fuimos más precisos en la detección de Claude 3 cuando se lanzó que con Claude 2.
En nuestra reciente serie de entradas de blog, describimos qué es un humanizador de IA y también lanzamos un modelo con un rendimiento muy mejorado en textos de IA humanizados. Nos complace ver que un tercero ya ha validado nuestras afirmaciones con un conjunto de datos de artículos humanizados de o1-pro.
En el texto humanizado o1-pro, logramos una precisión del 96,7 %, mientras que el siguiente mejor modelo automatizado solo es capaz de detectar el 46,7 % del texto humanizado.
También somos 100 % precisos en el texto GPT-4o que ha sido parafraseado frase por frase.
Nos complace ver el excelente rendimiento de Pangram en un estudio independiente sobre capacidades de detección de IA. Siempre nos complace apoyar la investigación académica y ofrecemos acceso abierto a cualquier académico que desee estudiar nuestro detector.
Además de comparar el rendimiento de los detectores automáticos, nos entusiasma ver investigaciones que también comienzan a abordar la explicabilidad y la interpretabilidad de la detección de IA: no solo si algo está escrito por IA, sino por qué. Esperamos poder seguir escribiendo sobre cómo estos resultados pueden ayudar a los profesores y educadores a detectar a simple vista los textos generados por IA, y cómo tenemos previsto incorporar esta investigación en herramientas de detección automática más explicables.
Para obtener más información, visite nuestro sitio web pangram.com o póngase en contacto con nosotros en info@pangram.com.
