¡Anunciamos una nueva colaboración con Proofig! Más información

El detector de IA de Pangram demuestra un gran rendimiento en más de 20 idiomas.

Bradley Emi
4 de septiembre de 2024

Hace dos meses, Pangram lanzó el primer modelo de detección de IA multilingüe. Ahora, ¡estamos listos para anunciar una actualización! Pangram ahora admite oficialmente los 20 idiomas más utilizados en Internet y, de manera no oficial, funciona bien en muchos más. Observamos un rendimiento especialmente sólido y muy mejorado en árabe, japonés, coreano e hindi.

Resultados

Evaluamos alrededor de 2000 documentos por idioma en nuestro conjunto de soporte oficial. La parte humana es una mezcla de reseñas reales, artículos de noticias y artículos de Wikipedia. La parte de IA es un conjunto de ensayos, artículos de noticias y entradas de blog que le pedimos a GPT-4o que escribiera en diferentes longitudes, estilos y temas.

IdiomaPrecisiónTasa de falsos positivosTasa de falsos negativos
Árabe99.95%0.10%0.00%
Checo99.95%0.00%0.11%
Alemán99.85%0.00%0.32%
griego99.90%0.00%0.21%
Español100.00%0.00%0.00%
persa100.00%0.00%0.00%
Francés100.00%0.00%0.00%
Hindi99.79%0.00%0.42%
húngaro99.49%0.10%0.95%
italiano100.00%0.00%0.00%
Japonés100.00%0.00%0.00%
holandés99.95%0.10%0.00%
Polaco100.00%0.00%0.00%
Portugués100.00%0.00%0.00%
rumano99.95%0.10%0.00%
Ruso100.00%0.00%0.00%
Sueco99.95%0.00%0.11%
Turco99.90%0.00%0.21%
ucraniano99.95%0.00%0.11%
urdu99.44%0.00%1.16%
Vietnamita99.95%0.00%0.11%
Chino99.95%0.00%0.11%

¿Qué hemos cambiado?

Estos son los principales cambios que hemos realizado para mejorar nuestra asistencia multilingüe:

  • Llevamos a cabo una campaña de aprendizaje activo de datos a escala web centrada en los 20 idiomas más utilizados en Internet.

  • Hemos cambiado el tokenizador para que admita mejor los idiomas distintos del inglés.

  • Aumentamos el número de parámetros del modelo base y los adaptadores LoRA.

  • Aplicamos un aumento de datos para traducir automáticamente una fracción aleatoria de nuestro conjunto de datos antes del entrenamiento.

  • Hemos corregido un error en el recuento de palabras que provocaba que los idiomas de Asia Oriental quedaran accidentalmente infrarrepresentados en el conjunto de entrenamiento.

Campaña de aprendizaje activo

La base fundamental de nuestro proceso de creación de modelos con tasas de falsos positivos extremadamente bajas es el aprendizaje activo: en pocas palabras, extraemos de Internet anteriores a 2022 ejemplos en los que nuestro modelo funciona mal (por ejemplo, falsos positivos), añadimos esos ejemplos a nuestro conjunto de entrenamiento, volvemos a entrenar y repetimos. Detallamos este algoritmo en nuestro informe técnico.

Podemos aplicar nuestro enfoque de aprendizaje activo a algunos grandes conjuntos de datos multilingües en la web para encontrar textos multilingües con los que nuestro modelo actual tiene dificultades, y luego utilizar estos datos para iterar, junto con nuestra gran biblioteca de indicaciones para crear espejos sintéticos: texto de IA que se parece a los falsos positivos extraídos que hemos encontrado. Aunque nos centramos en los 20 idiomas más utilizados en Internet, eliminamos el paso de filtrado de idiomas de nuestro proceso de datos, lo que significa que el texto de todos los idiomas es válido para la extracción de negativos y su inclusión en nuestro conjunto de entrenamiento.

Una de las ventajas de nuestro enfoque de aprendizaje activo es que reequilibra automáticamente la distribución de idiomas en función de la precisión de nuestro modelo. Los idiomas con pocos recursos están infrarrepresentados en Internet, pero debido a este desequilibrio de clases, nuestro primer modelo inicialmente funciona mal con los idiomas con pocos recursos, lo que provoca que aparezcan más textos de idiomas poco comunes en la extracción de datos negativos difíciles. A lo largo del proceso de aprendizaje activo, observamos que los datos de idiomas con muchos recursos, como el inglés, el español y el chino, disminuyen gradualmente en proporción en nuestro conjunto de entrenamiento, y que los idiomas menos comunes aumentan en proporción. Consideramos que esta es una solución relativamente elegante al desequilibrio natural en la distribución de datos del entrenamiento de modelos multilingües. A través de nuestro algoritmo de aprendizaje activo, el modelo es capaz de seleccionar por sí mismo los datos en los idiomas que necesita ver más.

Cambios arquitectónicos

Para mejorar la compatibilidad con textos multilingües en el dominio de entrada, también queríamos asegurarnos de que el LLM base que utilizamos para crear nuestro clasificador también fuera ampliamente fluido en muchos idiomas distintos del inglés. Realizamos un barrido de varias estructuras LLM y tokenizadores en nuestro conjunto de datos para encontrar el que mejor rendimiento ofrece en general entre una amplia gama de idiomas distintos del inglés. Descubrimos que el rendimiento en pruebas multilingües no parece estar muy relacionado con el rendimiento de la estructura en nuestra tarea de detección de IA: en otras palabras, aunque el modelo base pueda resolver tareas de razonamiento y responder preguntas en otros idiomas, la eficacia de la transferencia de habilidades a la detección de IA multilingüe varía enormemente.

También descubrimos que nuestros modelos iniciales entrenados tendían a ajustarse insuficientemente a la nueva distribución multilingüe; inicialmente observamos una mayor pérdida de entrenamiento. Con ese fin, también aumentamos el tamaño del modelo base, así como el recuento de parámetros en nuestros adaptadores LoRA, y también entrenamos el modelo durante más pasos. (Dado que nos encontramos en un régimen de aprendizaje activo/alto volumen de datos, casi nunca entrenamos durante más de una época. En este caso, solo tuvimos que ampliar el tamaño de la época).

Aumento de datos

Incluso con el aprendizaje activo, la diversidad de datos en idiomas distintos del inglés es notablemente inferior a la diversidad y el volumen de datos en inglés disponibles en línea, y no podemos rectificarlo por completo simplemente reequilibrando la distribución de idiomas en el conjunto de entrenamiento. En términos generales, hay algunos datos en inglés que son valiosos, pero que simplemente no existen o no tienen un equivalente nativo en otros idiomas. Por lo tanto, decidimos aplicar aleatoriamente un aumento de traducción automática a una pequeña parte de nuestro conjunto de datos (en nuestro caso, utilizamos Amazon Translate).

Aunque no es habitual aplicar aumentos de traducción automática al conjunto de entrenamiento en el entrenamiento de LLM, debido a que los datos traducidos automáticamente suelen ser poco naturales y adolecen de «traduccionismo», en nuestro caso, dado que no estamos entrenando un modelo generativo, no parece afectar a la calidad del resultado y hemos observado mejoras en nuestras métricas al aplicar este aumento.

Benchmarking: Español

Tomamos el español como ejemplo característico de un idioma con muchos recursos que antes era compatible con Pangram Text, pero que ahora ha mejorado mucho. Medimos la tasa de falsos positivos en varios ámbitos.

Conjunto de datosTasa de falsos positivos (antes)Tasa de falsos positivos (después)Número de ejemplos
Reseñas en español de Amazon0.09%0%20,000
Wikilingua (texto del artículo de WikiHow)3.17%0.14%113,000
XL-SUM (artículos de noticias en español nativo)0.08%0%3,800
Wikipedia en español0.29%0.04%67,000
CulturaX en español0.22%0.01%1,800,000
Entradas de blog en español que hemos seleccionado manualmente.0%0%60

También medimos la tasa de falsos negativos (la tasa a la que el texto generado por IA se clasifica incorrectamente como humano) para varios modelos de lenguaje grandes. En este experimento, elaboramos una lista de indicaciones para que los LLM generaran ensayos, entradas de blog y artículos de noticias de diversa longitud y estilo, y luego tradujimos las indicaciones al español. Los LLM son multilingües, por lo que responden a las instrucciones en español.

ModeloTasa de falsos negativos (antes)Tasa de falsos negativos (después)Número de ejemplos
GPT-4o2.1%0%1,400
Claude 3.5 Soneto0.7%0%1,400
Claude 3 Opus1.05%0%1,400
Géminis 1.5 Pro2.85%0%1,400

Como podemos ver, nuestro modelo actualizado logra una detección perfecta en todos los LLM probados, lo que supone una mejora significativa con respecto a nuestra versión anterior.

Evaluación comparativa: árabe y japonés

Dos de los idiomas en los que más nos hemos centrado para mejorar son muy hablados en el mundo, pero en realidad son menos comunes en Internet: el árabe y el japonés.

Conjunto de datosTasa de falsos positivos en árabeTasa de falsos positivos japonesaEjemplos en árabeEjemplos en japonés
Reseñas de Amazon0%0%N/A20,000
AR-AES (Redacción árabe para estudiantes)0%N/A2,000N/A
Wikilingua (texto del artículo de WikiHow)0.58%0.55%29,00012,000
XL-SUM (artículos de noticias en lengua materna)0%0%4,000733
Wikipedia0.09%0.009%31,00096,000
CulturaX0.08%0.21%1,785,0001,409,000
Entradas de blog que hemos seleccionado manualmente0%0%6060

Anteriormente no admitíamos estos dos idiomas, por lo que las tasas de falsos negativos eran extremadamente altas. Ahora podemos predecir con fiabilidad y muy buena precisión el árabe y el japonés generados por IA.

ModeloÁrabe FNRFNR japonés
GPT-4o0%0%
Claude 3.5 Soneto0%0%
Claude 3 Opus0%0%
Géminis 1.5 Pro0%0.21%

Como podemos ver, nuestro modelo actualizado logra una detección casi perfecta en todos los LLM probados, tanto para el árabe como para el japonés, con solo una ligera tasa de falsos negativos del 0,21 % para Gemini 1.5 Pro en japonés.

Los resultados completos de la evaluación comparativa lingüística están disponibles previa solicitud.

¿Qué sigue?

Aunque nuestro rendimiento es bueno con el texto web nativo, nuestro modelo a veces tiene dificultades para detectar el «lenguaje de traducción», es decir, el texto que está mal traducido o que no suena natural. Para empeorar las cosas, ahora mucha gente utiliza directamente modelos de lenguaje grande (LLM) como ChatGPT para tareas de traducción. ¿Debería clasificarse el texto traducido por un LLM como humano o como IA? Depende de lo burda que sea la traducción y también del caso de uso de la aplicación posterior. Un profesor de español puede considerar que el uso de la traducción automática en un trabajo es una falta de honestidad académica, pero una editorial puede querer permitir las obras traducidas a través de su proceso de control de calidad. Pangram está trabajando activamente para entender el texto traducido como una «tercera modalidad» que se encuentra en algún punto entre lo humano y la IA, y para proporcionar más información a nuestros usuarios, de modo que los consumidores posteriores de nuestro modelo puedan decidir qué es lo más adecuado para ellos.

¿Tienes más preguntas? ¡Contáctanos en info@pangram.com!

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.