¡Anunciamos una nueva colaboración con Proofig! Más información
Cuando buscas en Internet cómo funcionan los detectores de IA, normalmente ves muchas fuentes que citan los términos «perplejidad» y «irregularidad». ¿Qué significan estos términos y por qué, en última instancia, no funcionan para detectar contenido generado por IA? Hoy quiero desentrañar qué son la perplejidad y la irregularidad, y explicar por qué no son adecuadas para detectar textos generados por IA. También veremos por qué no funcionan y por qué los detectores basados en la perplejidad y la explosividad citan erróneamente la Declaración de Independencia como generada por IA, y por qué estos detectores también tienen un sesgo contra los hablantes no nativos de inglés. ¡Vamos allá!
Comenzaremos con una definición imprecisa y no técnica de perplejidad, solo para tener una idea general de lo que es y qué hace. Para obtener más información sobre la perplejidad, encontré muy útil este artículo explicativo de dos minutos.
La perplejidad es lo inesperado o sorprendente que resulta cada palabra de un texto, cuando se analiza desde la perspectiva de un modelo lingüístico concreto o LLM.
Por ejemplo, aquí hay dos oraciones. Centrémonos en la última palabra de cada oración, a modo de demostración. En el primer ejemplo, la última palabra tiene una perplejidad baja, mientras que en el segundo ejemplo, la última palabra tiene una perplejidad alta.
Baja perplejidad:
Hoy, para almorzar, comí un plato de *sopa*.
Alta perplejidad:
Hoy, para almorzar, me comí un plato de *arañas*.
La razón por la que la segunda frase es tan desconcertante es porque es muy raro que un modelo lingüístico encuentre ejemplos de personas comiendo cuencos de arañas en su conjunto de datos de entrenamiento, por lo que le resulta muy sorprendente que la frase termine con «arañas», en lugar de algo como «sopa», «un sándwich» o «una ensalada».
La palabra «perplejidad» proviene de la misma raíz que la palabra «perplejo», que significa «confuso» o «desconcertado». Es útil pensar en la perplejidad como la confusión del modelo de lenguaje: cuando ve algo que le resulta desconocido o inesperado, en comparación con lo que ha leído e incorporado en su proceso de entrenamiento, podemos pensar que el modelo de lenguaje se confunde o se desconcierta con la finalización.
Muy bien, genial, ¿y qué hay de la irregularidad? La irregularidad es el cambio en la perplejidad a lo largo de un documento. Si hay palabras y frases sorprendentes intercaladas a lo largo del documento, diríamos que tiene una alta irregularidad.
Desafortunadamente, la mayoría de los detectores comerciales (aparte de Pangram) no son transparentes en cuanto a su metodología, pero por lo que se entiende de sus descripciones, el texto humano se considera de mayor perplejidad y mayor irrupción que el texto generado por IA, y el texto generado por IA tiene menor probabilidad y menor irrupción.
¡Podemos ver una visualización de esto a continuación! Descargué el modelo GPT-2 de Huggingface y calculé la perplejidad de todo el texto de dos documentos: un conjunto de reseñas de restaurantes escritas por humanos y otro conjunto de reseñas generadas por IA. A continuación, resalté el texto de baja perplejidad en azul y el de alta perplejidad en rojo.
Visualización de la perplejidad comparando textos generados por IA y humanos.
Como se puede observar, el texto generado por IA es de un azul intenso en su totalidad, lo que sugiere valores de perplejidad uniformemente bajos. Por su parte, el texto generado por humanos es mayoritariamente azul, pero presenta picos de color rojo. Eso es lo que denominamos alta irrupción.
Es esta idea la que inspira los detectores de perplejidad y explosividad. No solo algunos de los primeros detectores comerciales de IA se basan en esta idea, sino que también ha inspirado algunas publicaciones académicas, como DetectGPT y Binoculars.
Para ser completamente justos, ¡estos detectores de perplejidad y explosividad funcionan en algunas ocasiones! Simplemente no creemos que puedan funcionar de forma fiable en entornos de alto riesgo en los que se deben evitar las imprecisiones, como en el aula, donde una detección falsa positiva de la IA puede socavar la confianza entre el profesor y el alumno o, lo que es peor, crear pruebas inexactas en un caso judicial.
Para aquellos que no estén familiarizados con cómo se crean los LLM, antes de que los LLM estén disponibles para su implementación y uso como chatbots, primero deben someterse a un procedimiento denominado «entrenamiento». Durante el entrenamiento, el modelo de lenguaje analiza miles de millones de textos y aprende los patrones lingüísticos subyacentes de lo que se denomina su «conjunto de entrenamiento».
Los detalles mecánicos precisos del procedimiento de entrenamiento quedan fuera del alcance de esta entrada del blog, pero el detalle fundamental es que, en el proceso de optimización, el LLM recibe un incentivo directo para minimizar la perplejidad en los documentos de su conjunto de entrenamiento. En otras palabras, el modelo aprende con el tiempo que los fragmentos de texto que ve repetidamente en su procedimiento de entrenamiento deben tener la menor perplejidad posible.
¿Por qué es eso un problema?
Debido a que se le pide al modelo que haga que los documentos de su conjunto de entrenamiento tengan una baja perplejidad, los detectores de perplejidad y burstiness clasifican los documentos comunes del conjunto de entrenamiento como IA, ¡incluso cuando los documentos del conjunto de entrenamiento están escritos por humanos!
Por eso los detectores de IA basados en la perplejidad clasifican la Declaración de Independencia como generada por IA: dado que la Declaración de Independencia es un documento histórico famoso que se ha reproducido en innumerables libros de texto y artículos de Internet, aparece en los conjuntos de entrenamiento de IA... muy a menudo. Y como el texto es exactamente el mismo cada vez que se ve durante el entrenamiento, el modelo puede memorizar lo que es la Declaración de Independencia cuando la ve y, a continuación, asignar automáticamente a todos los tokens una perplejidad muy baja, lo que también hace que la explosividad sea realmente baja.
He aplicado la misma visualización anterior a la Declaración de Independencia y vemos la misma firma de IA: un color azul intenso y uniforme en todo el texto, lo que indica que todas las palabras tienen una baja perplejidad. Desde la perspectiva de un detector basado en la perplejidad y la explosividad, la Declaración de Independencia es completamente indistinguible del contenido generado por IA.
Curiosamente, observamos que la primera frase de la Declaración de Independencia es aún más azul y menos perpleja que el resto. Esto se debe a que la primera frase es, con diferencia, la parte más reproducida del pasaje y la que aparece con mayor frecuencia en el conjunto de entrenamiento de GPT-2.
Visualización de la complejidad de la Declaración de Independencia
Del mismo modo, observamos que otras fuentes comunes de datos de entrenamiento de LLM también registran elevadas tasas de falsos positivos con detectores de perplejidad y burstiness. Wikipedia es un conjunto de datos de entrenamiento muy común debido a su alta calidad y a su licencia sin restricciones: por lo tanto, es muy habitual que se prediga erróneamente como generado por IA, ya que los modelos de lenguaje están optimizados directamente para reducir la perplejidad en los artículos de Wikipedia.
Este es un problema que se agrava a medida que la IA continúa desarrollándose y avanzando, ya que los modelos lingüísticos más recientes consumen una gran cantidad de datos: los rastreadores de OpenAI, Google y Anthropic están rastreando Internet a toda velocidad mientras lees este artículo, y continúan ingiriendo datos para el entrenamiento de modelos lingüísticos. ¿Deberían preocuparse los editores y propietarios de sitios web por el hecho de que permitir que estos rastreadores rastreen su sitio web para el entrenamiento de LLM pueda significar que su contenido sea clasificado erróneamente como generado por IA en el futuro? ¿Deberían las empresas que están considerando licenciar sus datos a OpenAI sopesar el riesgo de que esos datos también vuelvan a ser malinterpretados como IA una vez que los LLM los ingieran? Consideramos que se trata de un caso de fallo totalmente inaceptable, y que está empeorando con el tiempo.
Otro problema de utilizar la perplejidad y la explosividad como métricas para la detección es que son relativas a un modelo lingüístico concreto. Lo que se puede esperar de GPT, por ejemplo, puede no ser lo mismo que se espera de Claude. Y cuando salen nuevos modelos, su perplejidad también es diferente.
Los detectores basados en la perplejidad, denominados «caja negra», necesitan elegir un modelo lingüístico para medir la perplejidad real. Pero cuando la perplejidad de ese modelo lingüístico difiere de la perplejidad del generador, se obtienen resultados muy inexactos, y este problema solo se agrava con el lanzamiento de nuevos modelos.
Los proveedores de código cerrado no siempre proporcionan las probabilidades de cada token, por lo que ni siquiera se puede calcular la perplejidad para los modelos comerciales de código cerrado, como ChatGPT, Gemini y Claude. En el mejor de los casos, se puede utilizar un modelo de código abierto para medir la perplejidad, pero eso plantea los mismos problemas que la deficiencia 2.
Ha surgido la narrativa de que la detección mediante IA es parcial contra los hablantes no nativos de inglés, respaldada por un estudio de Stanford de 2023 sobre 91 ensayos del TOEFL. Aunque Pangram evalúa exhaustivamente los textos en inglés no nativo y los incorpora a nuestro conjunto de entrenamiento para que el modelo sea capaz de reconocerlos y detectarlos, los detectores basados en la perplejidad tienen efectivamente una elevada tasa de falsos positivos en los textos en inglés no nativo.
La razón de esto es que el texto escrito por los estudiantes de inglés tiene, en general, un menor grado de complejidad y menor variabilidad. Creemos que esto no es una casualidad: se debe a que, durante el proceso de aprendizaje del idioma, el vocabulario del estudiante es significativamente más limitado y este tampoco es capaz de formar estructuras sintácticas complejas que resulten inusuales o muy sorprendentes para un modelo lingüístico. Sostenemos que aprender a escribir con un alto grado de perplejidad y burstiness, sin dejar de ser lingüísticamente correcto, es una habilidad lingüística avanzada que se adquiere con la experiencia en el idioma.
Los hablantes no nativos de inglés, y creemos que por extensión los estudiantes neurodiversos o con discapacidades, son más vulnerables a ser detectados por los detectores de IA basados en la perplejidad.
Lo que creemos que es la mayor deficiencia de los detectores basados en la perplejidad, y la razón por la que en Pangram optamos por un enfoque basado en el aprendizaje profundo, es que estos detectores basados en la perplejidad no pueden mejorar por sí mismos con datos y escala computacional.
¿Qué significa esto? A medida que Pangram adquiere más experiencia con textos humanos a través de nuestro algoritmo de aprendizaje activo, mejora gradualmente. Así es como hemos conseguido reducir nuestra tasa de falsos positivos del 2 % al 1 %, al 0,1 % y ahora al 0,01 %. Los detectores basados en la perplejidad no pueden mejorar al ver más datos.
DetectGPT: Detección de texto generado por máquina sin entrenamiento previo mediante curvatura de probabilidad es un artículo que analiza el panorama de perplejidad local para distinguir entre la escritura humana y la escritura generada por IA, en lugar de utilizar valores absolutos de perplejidad.
Spotting LLMs with Binoculars: Zero-Shot Detection of Machine-Generated Text uses a novel metric called "cross-perplexity" to improve upon basic perplexity detection.
El informe técnico de Pangram profundiza en nuestra solución alternativa para detectar texto generado por IA basada en el aprendizaje activo profundo.
Hay una gran diferencia entre calcular una estadística que se correlaciona con la escritura generada por IA y crear un sistema de calidad de producción que pueda detectar de forma fiable la escritura generada por IA. Aunque los detectores basados en la perplejidad captan una faceta importante de lo que hace que la escritura humana sea humana y lo que hace que la escritura de IA sea IA, por las razones descritas en este artículo, no se puede utilizar un detector basado en la perplejidad para detectar de forma fiable la escritura generada por IA y mantener al mismo tiempo una tasa de falsos positivos lo suficientemente baja para aplicaciones de producción.
En entornos como el educativo, donde es fundamental evitar los falsos positivos, esperamos que se realicen más investigaciones orientadas hacia métodos basados en el aprendizaje profundo y que se abandonen los métodos basados en la perplejidad y la irrupción, o en métricas.
Esperamos que esto ayude a comprender por qué Pangram ha decidido no utilizar la perplejidad y la explosividad para detectar el texto generado por IA, y en su lugar se centra en métodos fiables que se pueden ampliar.
