¡Anunciamos una nueva colaboración con Proofig! Más información

¿Qué grado de precisión tiene la detección de Pangram AI en ESL?

Bradley Emi
23 de abril de 2025

Una crítica habitual a los detectores de IA es que están sesgados contra los hablantes no nativos de inglés. El texto escrito por hablantes no nativos de inglés se denomina ESL (inglés como segunda lengua) o, más precisamente, ELL (estudiantes de inglés como lengua extranjera). En artículos anteriores, hemos explicado por qué otros detectores de IA basados en la perplejidad y la explosividad son susceptibles a este defecto.

Los hablantes no nativos de inglés no tienen el vocabulario ni el dominio de los patrones complejos de construcción de oraciones en inglés necesarios para escribir de una manera que muestre una alta explosividad. Por lo tanto, los intentos anteriores de detección de IA han sido insuficientes: a menudo caracterizan erróneamente el inglés como segunda lengua (ESL) como escritura generada por IA y, por lo tanto, muestran una alta tasa de falsos positivos en el ESL.

Estudios previos sobre la detección de IA y ESL

En julio de 2023, Weixin Liang, James Zou y otros publicaron un notable estudio de Stanford en el que afirmaban que los detectores de GPT tienen un sesgo contra los escritores no nativos de inglés. Aunque el estudio se realizó con una muestra pequeña (solo 91 ensayos del examen TOEFL) y presentaba algunos defectos metodológicos (los autores decidieron etiquetar el texto humano modificado por GPT-4 como «humano» al probar los detectores), en general, los resultados mostraron que los siete detectores de IA probados (Pangram no se probó en este estudio) mostraban un fuerte sesgo contra la escritura en inglés como segunda lengua (ESL), con más del 60 % de las muestras de escritura humana en ESL marcadas como IA.

Un estudio más reciente, realizado en agosto de 2024 por el ETS, un centro de servicios de evaluación que administra el GRE, una prueba estandarizada para el acceso a estudios de posgrado, también llevó a cabo un estudio a mayor escala con alrededor de 2000 muestras de redacción de hablantes no nativos de inglés en el GRE, utilizando detectores de aprendizaje automático sencillos que ellos mismos entrenaron con características artesanales, incluida la perplejidad. No encontraron ningún sesgo en sus propios detectores contra el inglés no nativo, aunque el entorno experimental era muy simplificado y artificial, y existen diferencias importantes entre este estudio y el mundo real. Además, no estudiaron los detectores comerciales que se utilizan realmente en la práctica. No obstante, el estudio destaca un punto interesante: cuando los datos de hablantes no nativos de inglés están suficientemente representados en el conjunto de entrenamiento, el sesgo resultante se mitiga de manera suficiente.

El rendimiento de Pangram en ESL

Para medir la tasa de falsos positivos de Pangram en datos ESL, ejecutamos el detector de IA de Pangram en cuatro conjuntos de datos ESL públicos (retenemos estos conjuntos de datos durante el entrenamiento, para que no haya ninguna fuga entre el entrenamiento y la prueba).

Los conjuntos de datos que estudiamos incluyen:

Los resultados se encuentran a continuación.

Conjunto de datosTasa de falsos positivosTamaño de la muestra
ELIPSE0.00%3,907
ICNALE0.018%5,600
PELIC0.045%15,423
Liang TOEFL0%91
En general0.032%25,021

La tasa global de falsos positivos de Pangram es del 0,032 %, lo que no es significativamente superior a nuestra tasa general de falsos positivos del 0,01 %.

Pangram frente a TurnItIn

Comparamos directamente Pangram con TurnItIn utilizando los mismos conjuntos de datos que TurnItIn utilizó en una evaluación pública de su indicador de escritura con IA.

Evaluamos tanto el inglés «L1» (no ESL) como el «L2» (ESL) con los mismos conjuntos de datos que TurnItIn. Dado que TurnItIn no evalúa documentos de más de 300 palabras, aplicamos el mismo filtrado al conjunto de datos antes de la evaluación.

Conjunto de datosPangram FPRTurnItIn FPR
Inglés L2 Más de 300 palabras0.02%1.4%
L1 Inglés 300+ palabras0.00%1.3%

Hemos comprobado que Pangram es dos órdenes de magnitud más preciso que TurnItIn en textos de inglés como segunda lengua (ESL) y que Pangram no detecta ningún falso positivo en textos en inglés nativo de este estudio.

Pangram contra GPTZero

GPTZero informa de una tasa de falsos positivos del 1,1 % en el estudio original de Liang sobre el TOEFL, aunque el 6,6 % del conjunto de datos de Liang sobre el TOEFL también está clasificado erróneamente como «Posible contenido de IA».

En comparación, Pangram no reporta ni un solo falso positivo en el conjunto de datos Liang TOEFL, y tenemos mucha confianza en todos los ejemplos.

¿Cómo mitiga Pangram los falsos positivos en la redacción de inglés como segunda lengua?

En Pangram nos tomamos muy en serio nuestro rendimiento en inglés no nativo, y por eso hemos utilizado varias estrategias para mitigar los falsos positivos en nuestro modelo de detección de escritura con IA.

Datos

Los modelos de aprendizaje automático no funcionan bien fuera de su distribución de entrenamiento, por lo que nos aseguramos de que nuestro conjunto de datos incluya texto en inglés no nativo.

Sin embargo, no nos detenemos ahí. Mientras que otros detectores de escritura con IA se centran específicamente en los escritos de los estudiantes y los ensayos académicos, nosotros entrenamos nuestro modelo con una amplia gama de escritos. Otros detectores de escritura con IA que solo se entrenan con ensayos suelen adolecer de una representación insuficiente del inglés más coloquial y conversacional en el conjunto de entrenamiento. Por el contrario, nosotros utilizamos textos de redes sociales, reseñas y textos generales de Internet, que suelen ser informales y más representativos de la escritura imperfecta similar al inglés que utilizan los hablantes no nativos o los estudiantes de inglés.

También nos aseguramos de incluir fuentes que puedan contener textos escritos en inglés no nativo, aunque dichas fuentes no sean específicamente conjuntos de datos de inglés como segunda lengua (ESL). Por ejemplo, los textos en inglés de sitios web con dominios extranjeros son una excelente fuente de textos escritos en inglés no nativo.

Capacidades multilingües

A diferencia de otros detectores de IA, no limitamos nuestro dominio únicamente al inglés. De hecho, no restringimos el idioma de nuestro modelo en absoluto: utilizamos todos y cada uno de los idiomas presentes en Internet para entrenar nuestro modelo, de modo que funcione bien en todos los idiomas comunes.

Ya hemos hablado anteriormente sobre nuestro excelente rendimiento multilingüe, y creemos que las técnicas que hemos utilizado para que Pangram funcione muy bien en otros idiomas también se pueden aplicar muy bien al inglés como segunda lengua (ESL).

Aunque no podemos estar seguros de cuáles son los mecanismos responsables de la buena generalización y transferencia, sospechamos que el ESL puede considerarse casi un idioma adyacente al inglés. Al optimizar el modelo para que funcione bien en todos los idiomas, este no puede adaptarse excesivamente a los estilos, construcciones gramaticales o elecciones de palabras específicos de cada idioma, que son comunes a la forma de expresar ideas en un idioma concreto. Al analizar textos humanos en todos los idiomas, enseñamos al modelo cómo escriben todos los seres humanos, no solo los hablantes nativos de inglés. Esto hace que el modelo sea menos propenso a centrarse incorrectamente en los patrones idiomáticos expresados por los hablantes nativos.

Aprendizaje activo

Nuestro enfoque de aprendizaje activo es la razón por la que Pangram es mucho más preciso y marca erróneamente como IA una cantidad significativamente menor de texto humano que sus competidores.

Al alternar iterativamente entre el entrenamiento y la extracción de datos negativos difíciles, encontramos los ejemplos humanos que más se asemejan al texto generado por IA para el entrenamiento. Este enfoque no solo saca a la luz los ejemplos humanos más similares al texto generado por IA, lo que ayuda al modelo a comprender las diferencias sutiles entre el texto ESL y el texto generado por IA, sino que también nos ayuda a encontrar ejemplos similares al ESL que se transferirán bien y ayudarán al modelo a aprender mejores patrones en general.

Estrategias de incitación

Al crear ejemplos de IA para que el modelo aprenda, intentamos utilizar una variedad exhaustiva de indicaciones para que el modelo pueda generalizar a diferentes estilos de escritura. Por ejemplo, a menudo añadimos modificadores al final de nuestras indicaciones, como «Escribe este ensayo al estilo de un estudiante de secundaria» o «Escribe este artículo al estilo de un hablante no nativo de inglés».

Al crear tantos estilos de escritura diferentes, el modelo no solo aprende la forma predeterminada en que escriben los modelos de lenguaje de IA: aprende los patrones fundamentales subyacentes del texto de IA.

Desde una perspectiva estadística, diseñamos nuestro proceso de espejo sintético de tal manera que nuestro modelo resulte invariante a características irrelevantes como el tema, el nivel de redacción o el tono. Al estimular el modelo de manera que coincida con las características del texto humano, incorporamos la invariancia al tener un número igual de ejemplos humanos y de IA que muestran cada característica.

Evaluación rigurosa y control de calidad

Por último, llevamos a cabo un proceso de evaluación y control de calidad extremadamente exhaustivo y riguroso antes de aprobar cada nueva actualización del modelo.

En la evaluación, nos centramos tanto en la calidad como en la cantidad. Por ejemplo, el conjunto de datos Liang TOEFL solo tiene 91 ejemplos, por lo que solo podríamos obtener una estimación muy aproximada de nuestra tasa de falsos positivos en ESL si solo utilizáramos el conjunto de datos Liang TOEFL. Si solo nos equivocáramos en un único ejemplo, informaríamos de una tasa de falsos positivos del 1,1 %, por lo que no podríamos distinguir entre modelos que realmente tienen una FPR real inferior al 1 %.

Dado que nos esforzamos por tener un falso positivo muy inferior al 1 % (nuestro objetivo es una tasa de falsos positivos de entre 1 entre 10 000 y 1 entre 100 000), necesitamos medir millones de ejemplos para poder confirmar una precisión a ese nivel.

Realizar evaluaciones a gran escala también nos ayuda a adquirir una mejor intuición sobre los modos de fallo que presenta nuestro modelo y a corregirlos con el tiempo, obteniendo mejores datos y desarrollando mejores estrategias algorítmicas dirigidas específicamente a nuestros casos de fallo.

¿Se puede confiar en los detectores de IA en ESL?

A través de nuestras mediciones, resultados de evaluación detallados y estrategias de mitigación explicables, creemos que Pangram es lo suficientemente preciso para los hablantes no nativos de inglés como para ser implementado en el ámbito educativo.

Sin embargo, contar con un detector de IA suficientemente imparcial no es suficiente para evitar todo tipo de sesgos en el proceso de integridad académica. Los educadores deben ser conscientes de que los sesgos pueden manifestarse de forma inconsciente. Por ejemplo, si un educador tiende a utilizar un detector de IA en los trabajos presentados por personas que no son hablantes nativos de inglés debido a la sospecha subconsciente de que los estudiantes de inglés como segunda lengua son menos honestos, eso es una forma de sesgo.

Además, los profesores deben ser conscientes de que los hablantes no nativos de inglés sufren desventajas inherentes en el ámbito académico en comparación con sus homólogos nativos. Los estudiantes de inglés como segunda lengua (ESL) son más propensos a utilizar herramientas externas como ChatGPT para mejorar su escritura, lo que, cuando se utiliza en cantidad suficiente, activa el software de detección de IA. Por eso recomendamos la Escala de Evaluación de IA de Perkins para facilitar una comunicación clara con los estudiantes sobre qué tipo de asistencia de IA está permitida y cuál no.

Por último, sabemos que los estudiantes copian cuando se ven sometidos a estrés y presión, sienten una falta de autoeficacia, especialmente cuando se comparan con sus compañeros, y cuando creen que utilizar una herramienta para copiar es la única forma de tener éxito. Animamos a los educadores a abordar estas preocupaciones de forma proactiva, proporcionando apoyo a estos estudiantes, comunicando claramente qué tipo de ayuda está disponible y permitida, y posiblemente replanteándose las estrategias de evaluación que no esperan un inglés perfecto de los estudiantes que llegan al aula ya en desventaja.

El pangramo debe utilizarse como herramienta para fomentar la integridad académica, de modo que los educadores puedan comprender cuál es la mejor manera de apoyar el aprendizaje de sus alumnos.

Para obtener más información sobre nuestra investigación y las formas en que mitigamos los sesgos en nuestro software de detección de IA, póngase en contacto con nosotros en info@pangram.com.

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.