¡Anunciamos una nueva colaboración con Proofig! Más información
Un estudio independiente demuestra que Pangram es el detector de IA más robusto
Investigadores de la Universidad de Houston, la Universidad de California en Berkeley, la Universidad de California en Irvine y la startup Esperanto AI han descubierto que Pangram es el detector de texto de IA más robusto entre una amplia variedad de métodos comerciales y de código abierto. En el artículo, titulado «Esperanto: Evaluación de frases sintetizadas para mejorar la robustez en la detección de IA para el origen del texto», los investigadores estudiaron los efectos de la traducción de idiomas en la capacidad de los detectores de IA.
Es bien sabido que, para burlar los programas de detección de IA, basta con traducir el texto generado por IA a otro idioma mediante Google Translate y luego volver a traducirlo al inglés. Esto permite a los adversarios (o simplemente a los estudiantes inteligentes que andan escasos de tiempo) evadir los programas de detección de IA. En Pangram, llamamos internamente a este ataque «doble traducción», y los investigadores se refieren a él como «retraducción». He aquí un ejemplo de doble traducción. Le pedimos a ChatGPT que escriba un texto para nosotros. Primero traducimos el texto al japonés y luego lo volvemos a traducir al inglés. Observamos que algunas de las frases han cambiado debido a que el software de traducción no es perfecto y, a menudo, hay varias formas de decir lo mismo. Esto tiene un efecto similar al de una herramienta de paráfrasis como Quillbot.
Texto generado por ChatGPT
Texto traducido dos veces
Un ejemplo de traducción doble
Muchos de nuestros competidores no son resistentes a este exploit. Arriba se muestra uno de los detectores de IA de la competencia más comunes que se utilizan en el mercado. Vemos que el modelo puede detectar la IA directamente desde ChatGPT, pero una vez sometido a una doble traducción, solo predice un 15 % de IA.
Resultados de GPTZero
Una popular herramienta de la competencia clasifica correctamente el texto original generado por IA, pero clasifica erróneamente el texto traducido dos veces como escrito por un humano.
Sin embargo, Pangram es capaz de predecir tanto el texto original de ChatGPT como el texto traducido dos veces como IA al 99,99 %. No solo somos capaces de predecir que se trata de un texto generado por IA, sino que también podemos predecir con seguridad que fue GPT-4 la fuente original. Los investigadores se propusieron estudiar este fenómeno en términos generales y a gran escala.
Resultados de Pangram
Pangram identifica correctamente tanto el texto original como el doblemente traducido como generado por IA.
Un solo ejemplo no basta para demostrar que nuestro detector es robusto y los demás no lo son. En el estudio de investigación, los investigadores recopilaron miles de artículos de noticias, resúmenes de artículos científicos, publicaciones de Reddit y reseñas de productos que se confirmó que habían sido escritos por humanos. A continuación, generaron varios ejemplos de IA utilizando GPT-3.5-Turbo, LLaMA 3, Mistral, Phi3 y Yi.
En general, incluso antes de emplear un ataque de traducción, muchos de los métodos de código abierto y detectores comerciales son, de hecho, completamente ineficaces.
En primer lugar, se eligió un umbral: esto significa seleccionar el porcentaje de corte por encima del cual consideraríamos un documento como IA. La mayoría de los detectores de IA dan un porcentaje como resultado final. Para que todos los detectores fueran comparables, los umbrales se eligieron de manera que cada modelo tuviera una tasa de falsos positivos del 1 %. A continuación, la precisión del detector se puede comparar como la fracción de verdaderos positivos: ¿cuántos ejemplos de IA puede detectar cada detector en ese umbral?
Muchos de los otros métodos estudiados en el artículo no logran detectar el contenido generado por IA. Por ejemplo, ZeroGPT y GPTZero ni siquiera alcanzan una tasa de falsos positivos del 1 % en ningún umbral en algunos dominios, y artículos académicos muy citados como RADAR y LLMDet tienen una precisión inferior al 50 %.
La métrica propuesta para evaluar el rendimiento consiste en medir la TPR @ 1 % FPR: es decir, dada una tasa de falsos positivos constante del 1 %, ¿con qué frecuencia puede el modelo detectar texto generado por IA? ZeroGPT ni siquiera alcanza una tasa de falsos positivos del 1 % en ningún umbral en la mayoría de los dominios, y artículos académicos muy citados como RADAR y LLMDet obtienen resultados muy por debajo del 50 % en esta métrica.
Por su parte, Pangram alcanza una precisión superior al 96 % en todos los dominios con un FPR del 1 %, e incluso alcanza el 85 % en el difícil conjunto de datos de reseñas, que contiene reseñas de solo 40-50 palabras (muy por debajo de nuestro umbral recomendado de recuento de palabras para detectar la IA en el ámbito comercial).
Tras un doble ataque de traducción, muchos de los detectores fallan por completo. GPTZero, por ejemplo, pasa del 97 % al 42 % en el ámbito de las noticias y del 65 % al 9 % en el ámbito de las reseñas. Los investigadores concluyen que «los resultados de GPTZero y ZeroGPT indican una falta de solidez frente a las técnicas de retraducción... Pangram muestra un cierto grado de solidez, especialmente en textos más largos».
Los resultados completos se reproducen aquí. Pangram muestra un rendimiento superior en todas las categorías.
Tabla de resultados comparativa de detectores de IA
Tabla de resultados del artículo sobre esperanto que muestra la solidez de Pangram.
Esta investigación respalda aún más nuestra afirmación de que Pangram es el único software de detección de IA del mercado actual que funciona con la fiabilidad suficiente como para utilizarse en entornos académicos y comerciales, y que no puede eludirse mediante trucos como la doble traducción.
Esto no es una casualidad ni una coincidencia. La solidez de Pangram es prueba de un modelo potente que sabe generalizar y que está respaldado por grandes conjuntos de datos y nuestro enfoque de aprendizaje activo específico. Aunque cualquiera puede crear una herramienta de detección de IA que funcione algunas veces o incluso la mayoría de las veces, nuestro enfoque escalable es la única forma de lograr una precisión fiable y constante que no se vea completamente afectada cuando se modifica o altera el texto.
Trabajamos constantemente para mejorar el rendimiento y la solidez de nuestro modelo de detección de IA. Nos mantenemos al día con las últimas investigaciones en aprendizaje automático adversarial y probamos constantemente nuestro propio modelo frente a posibles ataques y elusiones.
¡Pronto habrá más información sobre este tema!
