Presentamos Open Pangram

Katherine Thai
24 de marzo de 2026

🤗 Modelos y conjuntos de datos

Código fuente

Nos enorgullece y nos emociona compartir dos versiones de Pangram basadas en la tecnología EditLens que propusimos en nuestro artículo presentado en la ICLR de 2026. Disponibles para uso no comercial bajo la licencia CC BY-NC-SA 4.0, estos dos modelos ligeros pueden ejecutarse en un MacBook.

¿Por qué lanzamos una versión abierta de Pangram?

Siempre nos hemos interesado por el estado actual de la detección de contenido generado por IA, y queremos ayudar a otros investigadores a avanzar en este campo. Anteriormente hemos contribuido a la comunidad publicando nuestro artículo sobre EditLens, que presenta formas novedosas de analizar y clasificar el contenido generado por IA, realizando análisis a gran escala de revisiones por pares y periódicos estadounidenses, y ofreciendo subvenciones para API a los investigadores. Al publicar los puntos de control del modelo EditLens, el conjunto de datos de entrenamiento y el código fuente, esperamos que los investigadores puedan seguir avanzando a partir de nuestro trabajo.

EditLens y detección asistida por IA

La detección de IA debe evolucionar a medida que evoluciona el uso de la IA generativa. Un estudio reciente de OpenAI reveló que dos tercios de todas las solicitudes relacionadas con la redacción dirigidas a ChatGPT consisten en modificar texto proporcionado por el usuario, en lugar de generarlo desde cero. A la luz de este paradigma emergente en el que humanos y IA crean textos de forma conjunta, hemos desarrollado un novedoso marco de detección que tiene en cuenta el grado de contribución de la IA a un texto. Es posible que los usuarios de Pangram hayan notado que nuestro modelo devuelve resultados como «Ligeramente asistido por IA» o «Moderadamente asistido por IA». Estas clasificaciones son posibles gracias a la tecnología presentada en nuestro artículo de investigación para ICLR 2026,«EditLens: Quantifying the Extent of AI Editing in Text», que introduce un modelo de detección de IA que devuelve una puntuación de 0 a 1, donde 0 indica un texto escrito íntegramente por humanos y 1 indica un texto generado íntegramente por IA. Con la publicación de nuestro conjunto de datos y nuestro código fuente, ahora cualquiera puede entrenar su propio modelo EditLens.

Conjuntos de datos

Publicamos el conjunto de datos EditLens, compuesto por 60 000 ejemplos de entrenamiento, 2 400 de validación y 6 000 de prueba. Cada subconjunto incluye textos escritos íntegramente por humanos, generados íntegramente por IA y editados por IA, procedentes de cuatro ámbitos. Los textos editados por IA se generaron aplicando una indicación de edición a un texto original escrito por humanos procedente de uno de estos cinco ámbitos: noticias (Narayan et al., 2018 y See et al., 2017), escritura creativa (Fan et al., 2018), reseñas de Amazon (Zhang et al., 2015), reseñas de Google (Li et al., 2022) y contenido web relacionado con la educación (Lozhkov et al., 2024).

Los modelos utilizados para generar los textos creados y editados por IA fueron los de OpenAI gpt-4.1-14 de abril de 2025 , de Anthropic claude-soneto-4-20250514 , y el de Googlegemini-2.5-flash.

El conjunto de datos EditLens también incluye dos subconjuntos de evaluación fuera del dominio: 6 000 ejemplos procedentes de un dominio de texto de referencia no utilizado (correos electrónicos) y una versión del subconjunto de prueba generada por Meta’s Llama-3.3-70B-Instruct-Turbo .

Además, publicamos un conjunto de datos que hemos recopilado con cerca de 1.800 textos editados con Grammarly. Este conjunto de datos consta de 9 ediciones diferentes de 200 textos originales escritos por personas. Cada una de las ediciones (por ejemplo, «Simplifica esto») es una sugerencia de edición del procesador de textos integrado en Grammarly. Los 200 textos originales escritos por personas se han extraído de uno de los conjuntos de datos de Persuade 2.0 (Crossley et al., 2024), ELLIPSE (Crossley et al., 2023), BAWE (Nesi et al., 2004), ICNALE (Ishikawa et al., 2007), CLASSE (Crossley et al., 2024) o PIILO (Holmes et al., 2023).

Puedes explorar ambos conjuntos de datos en HuggingFace.

Modelos

pangram/editlens_Llama-3.2-3B se ajustó mediante QLoRA con una longitud máxima de secuencia de 1024 tokens. El modelo base cuenta con 3000 millones de parámetros.

pangram/editlens_roberta-large, un modelo de 355 millones de parámetros, se ajustó con una longitud máxima de secuencia de 512 tokens.

Ambos modelos se entrenaron durante una época siguiendo el método descrito en el artículo sobre EditLens. Los hiperparámetros adicionales y el código de entrenamiento de ambos modelos se pueden encontrar en el repositorio de GitHub de EditLens. Puedes descargar los puntos de control de los modelos desde HuggingFace.

Evaluaciones

Tanto para la clasificación binaria como para la ternaria, determinamos los umbrales mediante calibración en el conjunto de validación retenido.

En las evaluaciones binarias, determinamos el umbral que maximiza el índice F1 a la hora de distinguir entre textos escritos íntegramente por personas y textos generados íntegramente por IA. En las evaluaciones binarias no hay textos editados por IA.

Para las evaluaciones ternarias, se determinan dos umbrales. En primer lugar, se clasifican los datos de evaluación en tres categorías: humanos, de IA y editados por IA. A continuación, se determina un umbral inferior que separa la clase «humana» de la unión de los datos [IA, editados por IA] y un umbral superior que separa la clase «IA» de la unión de los datos [humanos, editados por IA]. Ambos umbrales se determinan maximizando el índice F1.

Conjunto de pruebas dentro del dominio

Resultados de la clasificación binaria

2.038 textos escritos por personas y 2.046 textos generados por IA

DetectorMacro F1FPRFNR
Pangram 3.2 (modelo de producción actual)1.0000.0000.000
Pangram OSS: editlens_Llama-3.2-3B1.0000.0000.000
Pangram OSS: editlens_roberta-large0.9970.0020.003
Fast-DetectGPT0.8950.1210.088
Prismáticos0.8860.1280.101

Resultados de la clasificación ternaria

2.038 textos redactados por personas, 2.046 generados por IA y 2.031 editados por IA

DetectorPrecisiónMacro F1F1 humanoAI F1F1 editada con IA
Pangram 3.2 (modelo de producción actual)0.9200.9200.9260.9570.876
Pangram OSS: editlens_Llama-3.2-3B0.8950.8950.8950.9480.842
Pangram OSS: editlens_roberta-large0.8810.8810.9000.9230.819
Fast-DetectGPT0.5850.5450.2460.8310.558
Prismáticos0.5690.5230.2130.8110.545

Dominio retenido (correos electrónicos de Enron)

Resultados de la clasificación binaria

1.992 textos escritos por personas y 1.847 textos generados por IA

DetectorMacro F1FPRFNR
Pangram 3.2 (modelo de producción actual)0.9990.0010.001
Pangram OSS: editlens_Llama-3.2-3B0.9980.0010.004
Pangram OSS: editlens_roberta-large0.9660.0010.068
Fast-DetectGPT0.9410.0790.036
Prismáticos0.9140.1550.011

Resultados de la clasificación ternaria

1.992 textos escritos por personas, 1.847 generados por IA y 2.308 editados por IA

DetectorPrecisiónMacro F1F1 humanoAI F1F1 editada con IA
Pangram 3.2 (modelo de producción actual)0.9050.9090.8980.9560.872
Pangram OSS: editlens_Llama-3.2-3B0.8630.8680.8550.9360.812
Pangram OSS: editlens_roberta-large0.6950.6730.8470.5150.657
Fast-DetectGPT0.6250.5890.2610.8860.619
Prismáticos0.6180.5750.2660.8570.601

Modelo de referencia (Llama 3.3 70B Instruct)

Resultados de la clasificación binaria

2.038 textos escritos por personas y 2.038 textos generados por IA

DetectorMacro F1FPRFNR
Pangram 3.2 (modelo de producción actual)1.0000.0000.000
Pangram OSS: editlens_Llama-3.2-3B1.0000.0000.000
Pangram OSS: editlens_roberta-large0.9870.0020.025
Fast-DetectGPT0.9390.1210.000
Prismáticos0.9360.1280.000

Resultados de la clasificación ternaria

2.038 textos redactados por personas, 2.038 generados por IA y 1.881 editados por IA

DetectorPrecisiónMacro F1F1 humanoAI F1F1 editada con IA
Pangram 3.2 (modelo de producción actual)0.9520.9510.9460.9850.923
Pangram OSS: editlens_Llama-3.2-3B0.9210.9200.9180.9650.877
Pangram OSS: editlens_roberta-large0.8600.8590.9080.8790.791
Fast-DetectGPT0.5620.5060.2620.8170.440
Prismáticos0.5400.4780.2270.7960.411

Pruebas de rendimiento realizadas por terceros

Inglés no nativo (Liang et al., 2023)

91 textos escritos por personas

DetectorFPR
Pangram 3.2 (modelo de producción actual)0.000
Pangram OSS: editlens_Llama-3.2-3B0.055
Pangram OSS: editlens_roberta-large0.099
Prismáticos0.560
Fast-DetectGPT0.670

Detectores de personas (Russell et al., 2024)

150 textos escritos por personas y 150 generados por IA

DetectorMacro F1FPRFNR
Pangram 3.2 (modelo de producción actual)1.0000.0000.000
Pangram OSS: editlens_Llama-3.2-3B0.9870.0270.000
Pangram OSS: editlens_roberta-large0.9600.0200.060
Prismáticos0.8460.0870.220
Fast-DetectGPT0.7350.4870.013

RAID, muestra aleatoria de 10 000 elementos (Dugan et al., 2024)

2.058 textos escritos por personas y 7.942 textos generados por IA

DetectorcMacro F1FPRFNR
Pangram 3.2 (modelo de producción actual)0.9920.0020.007
Fast-DetectGPT0.9410.0780.028
Prismáticos0.9390.1000.024
Pangram OSS: editlens_Llama-3.2-3B0.9300.0030.062
Pangram OSS: editlens_roberta-large0.7360.0070.288

Conjunto de datos de Grammarly

En estos diagramas de caja mostramos la distribución de las puntuaciones del conjunto de datos de Grammarly que hemos recopilado, agrupadas por el tipo de corrección aplicada. Observamos que EditLens asigna puntuaciones muy bajas, casi humanas, a correcciones como «Corregir cualquier error», que corresponden a pequeñas correcciones gramaticales y ortográficas, mientras que a las correcciones más «aditivas», como «Hacerlo más detallado», se les asignan puntuaciones más altas.

Distribución de puntuaciones por instrucción de edición para Pangram OSS: editlens_Llama-3.2-3B

Distribución de puntuaciones por instrucción de edición para Pangram OSS: editlens_roberta-large

¿Para qué sirve Open Pangram?

Animamos a los investigadores a que utilicen los modelos de Open Pangram como referencia en sus investigaciones sobre detección mediante IA. Esperamos que los conjuntos de datos y el código fuente permitan a los investigadores ampliar nuestro trabajo.

¿Para qué NO se debe utilizar Open Pangram?

No se permite el uso comercial de Open Pangram. Los modelos de Open Pangram NO deben utilizarse para aplicar ningún tipo de política de uso de IA en entornos educativos o profesionales. Si desea un modelo más preciso con una tasa de falsos positivos líder en el sector, póngase en contacto con nosotros para conocer nuestras ofertas para empresas o las subvenciones para API de investigación.

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.