¡Anunciamos una nueva colaboración con Proofig! Más información

Todo sobre los falsos positivos en los detectores de IA

Bradley Emi
27 de marzo de 2025

Uno de los aspectos más importantes de nuestro trabajo en Pangram es minimizar nuestra tasa de falsos positivos. Esto significa reducir al máximo la posibilidad de que los textos escritos por humanos sean marcados como generados por IA. Hoy explicaremos las tasas de falsos positivos de Pangram en muchos tipos diferentes de escritos, cómo medimos y evaluamos nuestros modelos para garantizar que la tasa de falsos positivos sea lo más baja posible y, por último, algunas de las técnicas que empleamos para crear un software de detección de IA con la tasa de falsos positivos más baja del sector.

¿Qué es un falso positivo?

En el contexto de la detección de IA, un falso positivo se produce cuando un detector predice erróneamente que una muestra generada por humanos ha sido generada por IA. Por el contrario, un falso negativo se produce cuando una muestra generada por IA se predice erróneamente como humana.

Falsos positivos y falsos negativos en la detección mediante IA

El diagrama anterior ilustra los dos tipos de errores. Si el rojo representa la clase negativa y el verde representa la clase positiva, una X roja predicha como verde sería un falso positivo, y una O verde predicha como roja sería un falso negativo.

En estadística, se utilizan los términos «error de tipo I» y «error de tipo II», que significan exactamente lo mismo. Un error de tipo I es un falso positivo, y un error de tipo II es un falso negativo. Los estadísticos, y en particular los que trabajan en ciencias médicas, también utilizan los términos «sensibilidad» y «especificidad» para distinguir estas dos tasas de error. Los científicos especializados en aprendizaje automático utilizan los términos «precisión» y «recuerdo». Aunque existen algunas ligeras diferencias técnicas entre estos términos, a efectos educativos, en este artículo nos ceñiremos simplemente a «falsos positivos» y «falsos negativos», ya que creo que son los términos más claros para referirse a estos dos tipos de errores.

En la detección mediante IA, un falso positivo es mucho peor que un falso negativo. Acusar repetidamente de plagio mediante IA a los alumnos que escriben sus trabajos por sí mismos sin ayuda de la IA socava en gran medida la confianza entre el alumno y el profesor, y puede causar mucha ansiedad y estrés al alumno. Por otro lado, un falso negativo puede significar que, de vez en cuando, se cuele algún tramposo, lo cual no es un resultado tan malo.

Cabe señalar que, en otros problemas de detección, los falsos negativos pueden causar mucho más daño que los falsos positivos: por ejemplo, en una prueba de detección de cáncer, es mucho mejor que la prueba indique erróneamente que el paciente tiene cáncer, que que la prueba pase por alto por completo el cáncer real del paciente. Si la prueba indica erróneamente que el paciente tiene cáncer, aunque puede resultar incómodo para el paciente tener que volver para realizar seguimientos y pruebas adicionales, es mucho mejor que pasar por alto un diagnóstico de cáncer, lo que supone una amenaza para la vida del paciente.

Volviendo a la detección de IA, un falso positivo causa más daño que un falso negativo, pero ambos son importantes: pasar por alto constantemente el texto generado por IA y predecirlo erróneamente como humano también socava el valor de la herramienta. Por lo tanto, en Pangram, nuestro enfoque general es minimizar tanto los falsos negativos como los falsos positivos en la medida de lo posible, pero tratando los falsos positivos como una prioridad mayor.

¿Cuál es la tasa de falsos positivos de Pangram?

¡La respuesta es que depende!

En general, calculamos que nuestra tasa de falsos positivos es de aproximadamente 1 entre 10 000: a veces un poco más alta, otras veces un poco más baja, dependiendo del tipo de texto y otras variables.

Medimos la tasa de falsos positivos de Pangram en una amplia variedad de escritos: a estos los denominamos «dominios». Aunque no es exhaustiva, a continuación se muestra nuestra tasa de falsos positivos más actualizada, que medimos internamente en cada dominio:

DominioTasa de falsos positivos
Ensayos académicos0.004%
Reseñas de productos (inglés)0.004%
Reseñas de productos (español)0.008%
Reseñas de productos (japonés)0.015%
Resúmenes científicos0.001%
Documentación del código0.0%
Transcripciones del Congreso0.0%
Recetas0.23%
Documentos médicos0.000%
Reseñas de empresas estadounidenses0.0004%
Guiones de películas de Hollywood0.0%
Wikipedia (inglés)0.016%
Wikipedia (español)0.07%
Wikipedia (japonés)0.02%
Wikipedia (árabe)0.08%
Artículos de noticias0.001%
Libros0.003%
Poemas0.05%
Discursos políticos0.0%
Preguntas y respuestas sobre redes sociales0.01%
Escritura creativa, relatos cortos0.009%
Artículos prácticos0.07%

¿Qué factores determinan la susceptibilidad de Pangram a los falsos positivos?

En general, Pangram funciona mejor cuando se cumplen las siguientes condiciones:

  • El texto es lo suficientemente largo (más de doscientas palabras).
  • El texto está escrito en oraciones completas.
  • El dominio está bien representado en conjuntos de entrenamiento online comunes.
  • El texto contiene más aportaciones creativas y es menos formulista.

Creemos que estos factores son los motivos por los que Pangram obtiene mejores resultados en ensayos, escritura creativa y reseñas. Mientras que los artículos periodísticos, los trabajos científicos y las entradas de Wikipedia son más formales y técnicos, la disponibilidad de datos es abundante en estos ámbitos, por lo que Pangram se ha vuelto muy bueno reconociendo incluso los patrones más sutiles en la escritura. Por último, ámbitos como las recetas y la poesía son los más débiles, porque el texto suele ser breve, no está escrito en frases completas (lo que da al LLM menos oportunidades de inyectar su estilo idiosincrásico en el texto) y, en general, son menos frecuentes en Internet que los demás ámbitos.

En términos prácticos, ¿qué significa esto? Aunque Pangram sigue siendo relativamente fiable en todos los ámbitos, se puede confiar más en su precisión cuando el texto es largo, está compuesto por frases completas y requiere una mayor aportación original por parte del escritor. Por este motivo, no recomendamos utilizarlo para revisar elementos como listas cortas con viñetas y esquemas, matemáticas, respuestas muy breves (por ejemplo, frases sueltas) y textos extremadamente formulistas, como largas listas de datos, hojas de cálculo, textos basados en plantillas y manuales de instrucciones.

¿Cómo se compara la tasa de falsos positivos de Pangram con la de sus competidores?

No podemos realizar la misma evaluación exhaustiva a nuestros competidores, simplemente porque el coste de hacerlo sería extremadamente prohibitivo. Sin embargo, podemos fijarnos en cuál es, según ellos, su tasa de falsos positivos.

Turnitin

La tasa de falsos positivos que Turnitin indica en su sitio web.

El último informe técnico de Turnitin indica una tasa de falsos positivos del 0,51 % en los trabajos académicos, lo que equivale aproximadamente a 1 de cada 200 a nivel de documento. Esto significa que 1 de cada 200 trabajos presentados por los estudiantes será falsamente marcado como IA.

Nuestra tasa de falsos positivos, medida en un conjunto de datos similar de ensayos académicos, es del 0,004 %, lo que equivale a 1 de cada 25 000.

Esta es una diferencia significativa. En una gran universidad dedicada a la investigación, se pueden presentar 100 000 trabajos al año. Esta es la diferencia entre 500 falsas alarmas para Turnitin y solo 4 para Pangram.

GPTZero

La tasa de falsos positivos que GPTZero indica en su sitio web.

GPTZero afirma tener una tasa de falsos positivos del 1 %, lo que es dos veces peor que Turnitin y 250 veces peor que Pangram.

Para realizar una comparación justa, comparamos internamente GPTZero con Pangram en un conjunto más pequeño de documentos de nuestro conjunto VIP general. Descubrimos que el falso positivo era peor de lo informado, con un 2,01 %.

Copyleaks

Tasa de falsos positivos comunicada por Copyleaks en su sitio web.

Copyleaks afirma tener una tasa de falsos positivos del 0,2 %, o 1 de cada 500, lo que sería 50 veces peor que Pangram si fuera cierto.

Además, una cifra aislada como esta no cuenta toda la historia. No sabemos de dónde proceden los datos ni qué sesgos potenciales puede haber habido en la evaluación. Por eso realizamos evaluaciones comparativas exhaustivas y publicamos este artículo en el que detallamos nuestro proceso de evaluación del modelo.

Prueba de rendimiento RAID

Echando un vistazo al estudio RAID publicado el año pasado por Liam Dugan y sus coautores, el estudio n.º 2 del artículo de resumen de investigaciones que publicamos, nos gustaría llamar la atención sobre el siguiente gráfico.

Estudio RAID sobre las tasas de falsos positivos en los detectores

La mayoría de los detectores proporcionan un «umbral», que es el porcentaje de confianza por encima del cual el modelo considera que el texto es AI, y por debajo del cual considera que el texto es humano. Al mover el umbral, se pueden compensar los falsos positivos y los falsos negativos.

En este gráfico, el eje X representa la tasa de falsos positivos causada por el desplazamiento del umbral, y el eje Y representa la recuperación: que es la fracción de documentos de IA que pueden clasificarse como IA cuando se evalúan en ese umbral.

En resumen, los detectores de nuestros competidores no funcionan cuando se les obliga a tener una tasa de falsos positivos inferior al 1 %; es decir, no serían capaces de detectar ninguna IA cuando el umbral es lo suficientemente bajo como para producir un FPR del 1 %.

¿Cómo evaluamos la tasa de falsos positivos de Pangram?

Pangram se somete a un proceso extremadamente riguroso de aprobación y pruebas antes de que se permita implementar cualquier nuevo modelo en nuestro panel de control y API.

Durante nuestro control de calidad, realizamos tres tipos de pruebas para detectar falsos positivos, cada una de las cuales logra un equilibrio entre la evaluación cuantitativa y cualitativa. Nuestras evaluaciones incluyen:

  1. Conjuntos de datos de validación a gran escala. Aproximadamente entre 10 000 y 10 000 000 de ejemplos por conjunto. Se trata de bases de datos de Internet de gran escala y acceso abierto anteriores a ChatGPT (2022), de las que hemos seleccionado un conjunto de datos de validación que no se ha utilizado para el entrenamiento y que se ha reservado exclusivamente para fines de evaluación.

  2. Conjuntos VIP de tamaño mediano. Aproximadamente 1000 ejemplos por conjunto. Se trata de conjuntos de datos que ingenieros o etiquetadores han recopilado manualmente de fuentes fiables, inspeccionado visualmente y validado personalmente para garantizar que han sido escritos por humanos. Aunque los expertos cualificados son buenos detectando a simple vista el contenido generado por IA, en ocasiones cometen errores, por lo que auditamos regularmente los datos y los limpiamos para garantizar su precisión.

  3. Conjuntos de retos. Aproximadamente entre 10 y 100 ejemplos por conjunto. Se trata de falsos positivos notificados anteriormente, casos difíciles que nos han enviado nuestros amigos y, en general, ejemplos interesantes con los que queremos saber cómo nos desempeñamos. También recopilamos ejemplos de textos fuera de lo común, como recetas, poesía, guiones de películas y otras formas escritas que no están bien representadas en los conjuntos de entrenamiento de modelos de lenguaje grandes, y consideramos que estos también son conjuntos de retos, así como un punto de referencia general para evaluar el rendimiento de nuestro modelo cuando se pone «fuera de distribución».

Además de estos tres tipos de control de calidad, también contamos con pruebas unitarias. Estas pruebas unitarias, en términos coloquiales, evalúan nuestro modelo en busca de lo que podríamos denominar «fallos vergonzosos». Nuestra actual suite de pruebas unitarias nos obliga a predecir «humano» para documentos como la Declaración de Independencia, citas famosas de la literatura y el contenido de nuestro propio sitio web y entradas de blog. Si alguna de estas pruebas unitarias falla, bloqueamos la implementación de un nuevo modelo y volvemos a empezar desde cero. Una de nuestras filosofías rectoras en materia de evaluación es estar muy atentos al seguimiento y la supervisión de estos «fallos embarazosos», para que nunca se repitan cuando se lance un nuevo modelo.

Diagrama que muestra los tres tipos de conjuntos de evaluación utilizados en Pangram: conjuntos de retención a gran escala (más de 10 millones de ejemplos), conjuntos VIP a mediana escala (más de 1000 ejemplos) y conjuntos de desafío (entre 10 y 100 ejemplos).

Las personas con inclinaciones matemáticas y científicas podrían preguntarse: ¿por qué se necesita una evaluación cualitativa? ¿No es mejor siempre contar con más muestras?

Mi respuesta a esto sería: más muestras no siempre es mejor. Como dijo una vez un sabio profeta, hay mentiras, malditas mentiras y estadísticas. Pero hablando en serio, creemos que cuando se crea un gran conjunto de datos a gran escala, siempre se va a introducir algún tipo de sesgo. Y cuando se tiene un conjunto de datos tan grande que no se puede inspeccionar cada ejemplo, no se sabe si el modelo se ha ajustado en exceso a un sesgo del conjunto de datos que hará que funcione bien en la prueba, pero mal en el mundo real. (Como nota al margen, creemos que esta es la razón por la que hay muchos detectores de IA en línea que informan de una «precisión del 99 %», pero que ni siquiera se acercan a esa cifra cuando se prueban realmente).

Un ejemplo divertido que ilustra la importancia de estos múltiples tipos de conjuntos de pruebas ocurrió en los primeros días de Pangram, cuando introdujimos por primera vez Wikipedia en el conjunto de entrenamiento. Uno de nuestros primeros intentos fallidos terminó siendo excelente en el conjunto de reserva, pero muy deficiente en el conjunto VIP, que era una recopilación manual de artículos de Wikipedia. Lo que acabamos descubriendo fue que, en el conjunto de datos de Huggingface que estábamos utilizando, en el lado humano, la pronunciación de los nombres expresada en el Alfabeto Fonético Internacional se reformateaba de una manera realmente extraña a la que el modelo se adaptaba en exceso: simplemente miraba el formato del nombre y luego concluía, basándose en el formato, si el documento era de IA o humano. ¡Genial en el conjunto de validación, pero terrible en el mundo real, donde el modelo no tenía esa pista en particular! De ahí la importancia de contar con un conjunto de prueba que refleje con precisión el tipo de texto que Pangram va a encontrar en el mundo real.

Antes de enviar un modelo a los clientes de Pangram, llevamos a cabo un riguroso procedimiento de aprobación que incluye una evaluación cuantitativa y cualitativa, en la que sometemos el modelo a pruebas de estrés y analizamos minuciosamente su rendimiento en comparación con el modelo actual.

  1. Evaluación cuantitativa: significa que las métricas de la tasa de falsos positivos en todas las retenciones, conjuntos VIP y casos de desafío no deben ser objeto de regresión.

  2. Evaluación cualitativa: en la mayoría de los casos, algunos ejemplos mejorarán y otros empeorarán. Siempre que sea posible, examinamos visualmente los ejemplos específicos que empeoran y nos aseguramos de que los fallos sean explicables. A menudo, esto es sutil y específico de las hipótesis concretas que estamos probando, pero, en general, queremos asegurarnos de que los casos de fallo no muestren un patrón concreto que se generalice en el mundo real tras la implementación.

  3. Comprobación del ambiente / equipo rojo: Por último, una vez completadas las evaluaciones cuantitativas y cualitativas, simplemente «comprobamos el ambiente» del modelo enviándolo al equipo y pidiéndoles que lo prueben durante un tiempo. Para algunas actualizaciones, también podemos pedir a probadores internos o clientes beta que prueben el modelo antes de lanzarlo al público (¡normalmente les animamos a que intenten encontrar casos que rompan el modelo!).

  4. Pruebas A/B retroactivas: realizamos inferencias fuera de línea sobre nuestras predicciones anteriores y analizamos las diferencias entre el modelo antiguo y el nuevo. No siempre disponemos de la verdad fundamental para los datos que hemos inferido anteriormente, pero, una vez más, buscamos patrones coherentes que puedan mostrar casos de fallo en el mundo real.

En resumen, aunque somos extremadamente minuciosos y científicos a la hora de medir el rendimiento de nuestro modelo con métricas y estadísticas, no nos basamos únicamente en los números para obtener una visión completa. También confiamos en nuestros ojos, nuestra intuición y nuestra capacidad para reconocer patrones a la hora de examinar el modelo y encontrar patrones de error que nuestras métricas puedan haber pasado por alto. También contamos con nuestro equipo de probadores, miembros del equipo rojo y clientes beta para encontrar fallos que el equipo pueda haber pasado por alto.

¿Qué técnicas utilizamos para lograr una tasa de falsos positivos tan baja?

Mantener una tasa baja de falsos positivos es fundamental para nuestra misión de investigación. Estas son algunas de las técnicas que hemos utilizado hasta ahora para lograr la mejor tasa de error de su clase.

Cobertura completa de datos de entrenamiento

Aunque los detectores de IA de la competencia pueden estar «diseñados para el ámbito académico, las escuelas, las aulas y los educadores», lo que realmente significa es que su conjunto de entrenamiento solo contiene textos académicos.

Por otro lado, creamos Pangram para aprovechar la amarga lección: que los algoritmos de aprendizaje generales, entrenados con grandes volúmenes de datos procedentes de una amplia variedad de fuentes, son más eficaces que los modelos específicos entrenados con datos de un dominio concreto.

Esto significa que entrenamos nuestro detector de IA con una amplia variedad de textos: creativos, técnicos, científicos, enciclopédicos, reseñas, sitios web, entradas de blog... y la lista continúa. La razón es similar a una educación humanística completa: la exposición a muchas disciplinas y estilos de escritura ayuda al modelo a comprender y generalizar mejor cuando se encuentra con casos nuevos. Siguiendo la tendencia general en el entrenamiento de IA, ChatGPT y otros modelos de lenguaje grandes no se entrenan con datos específicos para casos de uso concretos, sino con datos de texto generales a gran escala para que puedan tener una inteligencia general: creemos en la misma estrategia para entrenar detectores de IA que sean robustos ante todos los diferentes tipos generales de texto que puede producir un LLM.

Minería negativa dura / Aprendizaje activo

Hemos escrito extensamente sobre nuestro algoritmo de aprendizaje activo, que aprovecha una técnica llamada minería de negativos duros, y creemos que esta es la razón principal por la que podemos reducir nuestra tasa de falsos positivos a casi cero.

En esencia, la razón por la que esto funciona es porque la mayoría de los ejemplos en la vida real son «ejemplos fáciles»: una vez que el modelo aprende los patrones básicos de lo que es humano y lo que es IA, es muy fácil distinguir cuál es cuál en la gran mayoría del conjunto de datos. Sin embargo, eso solo te da una precisión de alrededor del 99 %. Para alcanzar los últimos dos puntos porcentuales de precisión, debemos encontrar los casos más difíciles para entrenar el modelo: podemos pensar en estos casos como aquellos en los que un humano decide escribir de una manera muy similar a un modelo de lenguaje de IA, pero que, en realidad, solo escribe así por casualidad. Para encontrar estos negativos difíciles, realizamos una búsqueda a gran escala en conjuntos de datos a escala de Internet, como los que se utilizan para entrenar los LLM, y luego realizamos un reflejo sintético para generar ejemplos de IA que suenen similares. Puede encontrar más detalles en nuestra página «Cómo funciona».

Ponderación de pérdidas y sobremuestreo

Formulamos nuestro objetivo de optimización de manera que el modelo también priorice los falsos positivos sobre los falsos negativos durante el propio procedimiento de entrenamiento. Cuando el modelo se equivoca con un documento humano, se le «penaliza» con un factor mucho más severo que si se equivoca con un documento de IA. Esto obliga al modelo a ser conservador y solo predecir que un documento es de IA si está absolutamente seguro.

Calibración

Esto se refiere a la selección del umbral tal y como se describe en RAID. Seleccionamos nuestro umbral basándonos en la evaluación de millones de documentos en nuestros conjuntos de evaluación para compensar adecuadamente las tasas de falsos positivos y falsos negativos. Con nuestra selección de umbrales, intentamos encontrar un equilibrio entre mantener la tasa de falsos negativos en un nivel razonable y no comprometer nuestros falsos positivos.

Comida para llevar

  • Pangram presenta una tasa de falsos positivos significativamente menor que la de sus competidores.
  • La tasa de falsos positivos extremadamente baja de Pangram se debe a una combinación de escala, entrenamiento y búsqueda.
  • Dado que la tasa de falsos positivos es tan importante en la detección de IA, hemos creado un conjunto de pruebas y control de calidad extremadamente completo y hemos desarrollado un minucioso proceso de aprobación que combina una cuidadosa evaluación estadística con un juicio humano más complejo y cualitativo y comprobaciones de la sensación que transmite.

Nos encanta trabajar con investigadores para mejorar la precisión general de nuestro software, y nos apasiona la evaluación comparativa abierta y la transparencia en la detección de IA. Si tiene alguna pregunta sobre cómo trabajar con nosotros, colaborar con nosotros o sobre la precisión de Pangram, póngase en contacto con info@pangram.com.

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.