¡Anunciamos una nueva colaboración con Proofig! Más información

Cómo detecta Pangram el contenido generado por IA

Ver informe técnico en PDF

Resumen general

Pangram Text está diseñado para detectar contenido generado por IA con una tasa de falsos positivos cercana a cero. Nuestro riguroso enfoque de entrenamiento minimiza los errores y permite al modelo detectar texto generado por IA mediante el análisis y la comprensión de sutiles indicios en la redacción.

Proceso de formación inicial

Nuestro clasificador utiliza una arquitectura de modelo de lenguaje tradicional. Recibe el texto de entrada y lo tokeniza. A continuación, el modelo convierte cada token en una incrustación, que es un vector de números que representa el significado de cada token.

La entrada se pasa a través de la red neuronal, produciendo una incrustación de salida. Un clasificador transforma la incrustación de salida en una predicción de 0 o 1, donde 0 es la etiqueta humana y 1 es la etiqueta de IA.

Entrenamos un modelo inicial con un conjunto de datos pequeño pero diverso, compuesto por aproximadamente un millón de documentos que incluyen textos públicos y con licencia escritos por humanos. El conjunto de datos también incluye textos generados por IA producidos por GPT-4 y otros modelos lingüísticos de vanguardia. El resultado del entrenamiento es una red neuronal capaz de predecir de forma fiable si un texto ha sido escrito por un humano o por una IA.

Mejora continua a través de la iteración

Minería negativa dura

El modelo inicial ya era bastante eficaz, pero queríamos maximizar la precisión y reducir cualquier posibilidad de falsos positivos (predicciones erróneas de documentos escritos por humanos como generados por IA). Para ello, desarrollamos un algoritmo específico para modelos de detección de IA.

Con el conjunto de datos inicial, nuestro modelo no tenía suficiente señal para pasar de una precisión del 99 % a una precisión del 99,999 %. Aunque el modelo aprende rápidamente los patrones iniciales de los datos, necesita ver casos extremos para distinguir con precisión entre el texto humano y el texto generado por IA.

Resolvemos esto utilizando el modelo para buscar falsos positivos en grandes conjuntos de datos y ampliando el conjunto de entrenamiento inicial con estos ejemplos difíciles adicionales antes de volver a entrenar. Tras varios ciclos de este proceso, el modelo resultante muestra una tasa de falsos positivos cercana a cero, así como un rendimiento general mejorado en los conjuntos de evaluación retenidos.

HUMANOIAIndicaciones del espejo
Indicaciones del espejo
Diseñamos la parte de IA del conjunto de datos para que se parezca mucho a la parte humana en cuanto a estilo, tono y contenido semántico. Para cada ejemplo humano, generamos un ejemplo creado por IA que coincida con el documento original en tantos ejes como sea posible, para asegurarnos de que nuestro modelo aprenda a clasificar documentos basándose únicamente en características específicas de la escritura LLM.
Reciclar
Entrenamos el modelo con un conjunto de entrenamiento actualizado y evaluamos el rendimiento del modelo en cada paso. Con este método, podemos reducir los errores y aumentar la precisión de nuestro modelo más allá de lo que es posible con el entrenamiento normal.
Diagrama del modelo de reentrenamiento

Más información

arxiv.org
Informe técnico sobre el clasificador de textos generado por IA Pangram
¡Echa un vistazo a nuestro informe técnico completo en arXiv, donde analizamos en profundidad los detalles del entrenamiento, el rendimiento y otros experimentos!