Ver en el espacio Pangram

Análisis de las representaciones internas del Pangram 3.3.2

Por Elyas Masrour, Katherine Thai y Bradley Emi

Junio de 2026

Cargando la visualización…
Fig. 1. Cada punto representa un documento escrito por un humano o por una IA. La animación muestra la separación progresiva entre los documentos generados por IA y los escritos por humanos a lo largo de las capas de Pangram.
01

Introducción

Desde el lanzamiento de ChatGPT en 2022, la redacción asistida por IA se ha expandido a un ritmo vertiginoso. Dado que el texto generado por IA está presente en gran parte de lo que leemos, ha quedado claro que algunos tipos de textos pierden su valor cuando los produce una máquina. En el ámbito académico, los ensayos tienen como objetivo fomentar el razonamiento de los estudiantes. En el mercado, las reseñas de productos son valiosas porque reflejan las experiencias de otras personas.

Pangram es una empresa de investigación que desarrolla modelos de detección basados en IA de última generación para abordar este problema. Nuestro producto estrella es un modelo de detección de texto generado por IA que destaca por sus bajas tasas de falsos positivos —líderes en el sector—, sus capacidades multilingües y su capacidad para diferenciar entre contenido generado por IA y contenido creado con la ayuda de la IA.

Desde la publicación de nuestro primer informe técnico en 2024, hemos tenido una perspectiva única para observar una oleada tras otra de avances en IA. Nuestros investigadores se han enfrentado a filtros de contenido excesivamente estrictos y han sido testigos de numerosos casos de colapso de modos, y esquivó oleadas de guiones largos y la palabra «delve».

Nuestro modelo estrella es un LLM que se ha ajustado específicamente para esta tarea de clasificación de secuencias. No utilizamos métricas personalizadas como la perplejidad o la irregularidad. Tampoco realizamos ninguna extracción manual de características. Contamos con un producto dirigido al cliente llamado «AI Phrases», en el que proporcionamos a nuestros usuarios información sobre las frases que aparecen con mayor frecuencia en los textos generados por IA. Sin embargo, estas no se utilizan directamente como características para el modelo. Al cabo de un tiempo, uno siente curiosidad: ¿qué ve el modelo?

Para nosotros, como investigadores, esta cuestión es importante. Tenemos un gran interés en evitar los atajos, corregir comportamientos no deseados del modelo y comprender este problema en profundidad. En esta entrada, describiremos nuestras primeras iniciativas en materia de interpretabilidad mediante el análisis a nivel de documento.

02

Datos

Hemos creado un conjunto de datos de interpretabilidad a partir de muestras retenidas dentro del dominio, extraídas de nuestro conjunto de entrenamiento de producción. El explorador interactivo de esta página utiliza un subconjunto equilibrado de 5.000 documentos, repartidos a partes iguales entre humanos e IA, a lo largo de 20 capas pares. Las muestras de IA abarcan las variantes de modelo que se indican a continuación, correspondientes a las seis familias de modelos utilizadas para la prueba del clasificador.

Modelos

  • Claude 3.7 Soneto
  • Claude Soneto 4
  • Claude Sonnet 4,5
  • Claude Opus 4
  • Claude Opus 4.1
  • Claude Opus 4.5
  • GPT-3.5 Turbo (noviembre de 2023)
  • GPT-3.5 Turbo (enero de 2024)
  • GPT-4 (marzo de 2023)
  • GPT-4 (junio de 2023)
  • GPT-4o
  • GPT-5
  • GPT-5.1
  • GPT-5.2
  • o1
  • Gemini 2.0 Flash
  • Gemini 2.5 Flash
  • Géminis 2.5 Pro
  • Gemini 3 Pro
  • DeepSeek R1
  • DeepSeek V3
  • Qwen 2.5 7B
  • Qwen 2.5 72B
  • Qwen 3 235B
  • Llama 3.1 8B
  • Llama 3.1 70B

Dominios de origen

  • Noticias
  • Resúmenes científicos
  • Opiniones sobre productos
  • Opiniones sobre empresas
  • Reddit: Escritura creativa
  • Reddit ELI5
  • Libros (autoeditados)
  • Libros (Proyecto Gutenberg)
  • Wikipedia (inglés)
  • Wikipedia (multilingüe)
  • Lang-8 (ESL)
03

Pangram 3.3.2: Descripción general

Pangram 3.3.2 es un modelo de detección de IA lanzado por Pangram Labs en 2026. Utiliza el mismo modelo subyacente que Pangram 3.3, con correcciones de errores posteriores que mejoran su rendimiento. Pangram 3.3 sucedió a Pangram 3.2 y mejoró la recuperación en los resultados de los modelos de lenguaje a gran escala (LLM) más recientes, el texto humanizado y el contenido extenso generado por IA, al tiempo que redujo los falsos positivos en textos escritos en inglés no nativo.

Ficha del modeloLee la ficha del modelo Pangram 3.3Consulta los detalles de la versión de Pangram 3.3.2.Leer el artículo

El trabajo sobre la interpretabilidad sigue en curso. A lo largo de este artículo, también aplicamos nuestros métodos de forma retroactiva a Pangram 3.2 y Pangram 3.1.

04

Métodos

Activaciones

La arquitectura de EditLens es un sistema de clasificación basado en «buckets» que se reduce a un único puntuación_de_asistencia_de_IA. En este proyecto, descartamos el resultado final del modelo y, en su lugar, nos centramos en las representaciones internas que aprende el modelo. Para analizarlas, recopilamos las activaciones realizando una pasada hacia adelante del modelo con un documento de entrada determinado y guardando la representación oculta del modelo en varias capas internas. En este proyecto, extrajimos las activaciones de cada documento, para cada capa par de toda la red.

Reducción de la dimensionalidad

Cada vector de activación extraído tenía 5.120 dimensiones. Para comprender mejor las representaciones, utilizamos varias técnicas de reducción de dimensionalidad.

PCA

El análisis de componentes principales (PCA) es la proyección lineal más sencilla: identifica las direcciones de máxima varianza en el espacio de activación. En este proyecto, observamos que, hacia el final de la red, la mayor parte de la varianza se concentra en los componentes principales 1 y 2, por lo que los representamos gráficamente uno frente al otro.

UMAP

UMAP ofrece una representación no lineal diseñada para preservar la estructura de vecindad. Si dos documentos están próximos entre sí en el espacio interno del modelo, UMAP intenta mantenerlos próximos en el espacio bidimensional. Sin embargo, no se deben sobreinterpretar los ejes exactos ni las distancias entre los clústeres.

t-SNE

El t-SNE es otro método de proyección no lineal que resulta eficaz para revelar agrupaciones locales. A efectos de este proyecto, utilizamos el t-SNE para comprobar si los grupos que revisten importancia semántica —como las familias de modelos o las etiquetas «humano»/«IA»— se agrupan de forma visible a medida que la red se hace más profunda.

Sondas lineales

Utilizamos sondas lineales para cuantificar los resultados cualitativos que observamos en nuestros métodos de reducción de dimensionalidad. Para cada capa, nos preguntamos si un clasificador sencillo puede recuperar una etiqueta objetivo a partir de los vectores de activación de dicha capa. Una alta precisión de la sonda significa que la distinción relevante ya está codificada en una dirección linealmente accesible del espacio de representación.

05

La tarea de detección de IA

Precisión binaria

Para comprender cómo se logra la separación final de clases a lo largo de la red, entrenamos sondas lineales en cada capa. El entrenamiento se realiza con 500 muestras, repartidas equitativamente entre humanos e IA, con una división de 80:20 entre entrenamiento y prueba. Observamos que, incluso en las primeras capas de la red, el rendimiento ya es sólido: alcanzamos una precisión de 0,83 justo después de la capa 2. Esto coincide con nuestra intuición, ya que los modelos de «bag-of-words» suelen ser líneas de base válidas para la tarea de detección de IA. A lo largo de la red, la precisión va aumentando hasta alcanzar un máximo de 1,0 en la capa 24.

Precisión de la sonda en todas las capas
Fig. 2. Precisión de la sonda lineal «humano/IA» en las distintas capas con datos de validación.
Cargando representaciones…

Fig. 3. Esta separación se aprecia claramente en los tres métodos de reducción de dimensiones.

06

Clasificación LLM

En los gráficos de t-SNE y UMAP, observamos que los documentos parecían agruparse según el modelo que los había generado. Esto nos sorprendió. Las versiones anteriores de Pangram contaban con un módulo de clasificación de modelos de lenguaje grande (LLM) independiente, pero esa tarea concreta se había descartado hacía tiempo. En su proceso de entrenamiento, a Pangram 3.3.2 no se le proporcionan etiquetas que correspondan al modelo de origen de un documento generado por IA.

Aun así, se formaron agrupaciones en torno a la familia de modelos de origen. Y lo que es aún más interesante, las agrupaciones parecen surgir a lo largo de todas las capas de la red.

Aparición de agrupaciones de modelos

Colorea las mismas representaciones según la familia de modelos para ver cómo la geometría a nivel de proveedor se manifiesta en todas las capas.

Cargando representaciones…

Fig. 4: Representaciones de las capas 2 a 40, clasificadas por familia de modelos. Los grupos a nivel de proveedor se hacen más evidentes en las capas posteriores.

Sonda

Para cuantificar este fenómeno, entrenamos un clasificador con seis familias de modelos (Anthropic, OpenAI, Google, Qwen, Llama y DeepSeek) utilizando 500 muestras por familia de modelos —un total de 3.000 muestras—, con una división entre entrenamiento y prueba de 80:20. Hemos comprobado que, efectivamente, podemos entrenar un modelo capaz de clasificar la familia de modelos de origen de un documento concreto utilizando únicamente activaciones de pangramas, con una precisión máxima top-1 del 91 %.

Precisión del clasificador del modelo en las distintas capas
Fig. 5. Precisión de la sonda lineal de la familia de modelos a lo largo de las capas. La familia de modelos de origen se vuelve cada vez más recuperable a partir de las activaciones del pangram.

La aparición no está garantizada

Nuestros experimentos iniciales sobre interpretabilidad incluyeron pruebas con varios modelos. Para nuestra sorpresa, la aparición de una capacidad de «clasificación de modelos de lenguaje a gran escala» fue uno de los únicos hallazgos de este proyecto que varió de forma significativa entre los distintos modelos.

La siguiente figura compara el comportamiento de agrupación de Pangram 3.1, 3.2 y 3.3.2. A pesar de que el modelo obtiene mejores resultados que el 3.1 en la tarea binaria «humano-IA» en nuestras evaluaciones internas de validación, los grupos del modelo son, en general, menos definidos en Pangram 3.2 que en Pangram 3.1 o 3.3.2.

Comparación mediante t-SNE de Pangram 3.1, 3.2 y 3.3.2 en la capa 40
Fig. 6. t-SNE en la capa 40 para Pangram 3.1, 3.2 y 3.3.2. La geometría de los clústeres de familias de modelos varía entre las distintas versiones del modelo.

Para ilustrar mejor esta diferencia, comparamos la prueba del clasificador LLM en Pangram 3.1, 3.2 y 3.3.2. Las tres mejoran su precisión top-1 en las primeras capas, pero la prueba de Pangram 3.2 empieza a disminuir a partir de la capa 12, mientras que las de Pangram 3.1 y 3.3.2 se mantienen altas.

Comparación de la precisión de Probe en las versiones 3.1, 3.2 y 3.3.2 de Pangram
Fig. 7. Comparación de la precisión de la sonda en las distintas capas para Pangram 3.1, 3.2 y 3.3.2.
07

Humanizadores

Los «humanizadores» son una clase de herramientas adversarias diseñadas para modificar el texto generado por IA de tal forma que eluda los detectores de IA. Para ver dónde se sitúa el texto humanizado en relación con el texto humano y el generado por IA en el espacio de activación, hemos creado un conjunto de datos independiente de humanizadores, que consta de unas 1.900 muestras, distribuidas de forma más o menos equilibrada entre tres modelos generativos (Claude Sonnet 4.5, Gemini 2.5 Pro y GPT-5), diez servicios de humanización diferentes y los mismos dominios de origen que el conjunto de datos de interpretabilidad original. Debido a los riesgos adversarios, no revelamos qué servicios utilizamos.

Cómo interpreta el modelo los «humanizadores»

Es cierto que algunas muestras de nuestro conjunto de datos «humanizer» resultan difíciles de detectar para nuestro modelo. En este caso, utilizamos la misma prueba lineal para la tarea «humano/IA», salvo que el texto humanizado se etiqueta como «IA», tal y como hacemos en la configuración de entrenamiento original. Observamos que, incluso desde la primera capa, el texto humanizado se interpreta sistemáticamente como más humano que su equivalente directo generado por IA.

Sonda Humanizer delta a través de las capas
Fig. 8. Diferencia media de P(AI) entre las muestras de IA directas y sus equivalentes humanizados en todas las capas.

Dónde se encuentran los «humanizadores» en el espacio de incrustación

Sin embargo, cuando analizamos más allá del resultado final, encontramos una representación mucho más rica del texto humanizado. A continuación, aplicamos nuestros métodos de reducción de dimensionalidad a los textos humanos, de IA y humanizados. Desde un punto de vista cualitativo, podemos observar que los humanizadores tienden a ocupar partes separadas del espacio de activación y forman agrupaciones fuera de las regiones de los textos humanos y de IA.

Nuestra hipótesis es que, a pesar de no disponer de etiquetas para el texto humanizado, el modelo es capaz de distinguir entre texto humanizado, texto escrito por humanos y texto generado por IA. Sin embargo, en el resultado final, el modelo se ve obligado a suprimir esa señal y lo hace de forma inconsistente.

Reducción de dimensionalidad de Humanizer con t-SNE, PCA y UMAP en la capa 40
Fig. 9. Texto humano, de IA y humanizado en la capa 40 mediante t-SNE, PCA y UMAP. El texto humanizado ocupa una región diferenciada, separada de los principales grupos de texto humano y de IA.

Sonda

Para validar esta hipótesis, entrenamos una sonda lineal de tres vías con etiquetas para texto generado por IA, texto humano y texto humanizado. La sonda alcanza una alta precisión top-1 en las primeras capas de la red y, finalmente, se estabiliza en el 98 %.

Clasificación en tres categorías: texto humano, texto generado por IA y texto humanizado
Fig. 10. Precisión de la sonda de clasificación de tres categorías (humana / IA / humanizada) en las distintas capas.
08

Conclusión

Nuestro trabajo sugiere que las representaciones internas de Pangram contienen más estructura de la que revela por sí sola la lectura binaria final. A lo largo de las distintas capas, observamos que los documentos humanos y los generados por IA se separan, que surge información sobre la familia de modelos y que el texto humanizado ocupa su propia región en el espacio de activación. Estos hallazgos son preliminares, pero nos proporcionan un mapa útil para comprender qué aprende el modelo antes de sintetizarlo todo en una única puntuación de detección.

Esta entrada muestra solo los primeros pasos de nuestro trabajo en materia de interpretabilidad, pero, a nivel interno, estamos entusiasmados e interesados en esta línea de investigación.

Nuestra visión sobre la interpretabilidad y la explicabilidad de los modelos Pangram es que estos puedan:

  • Facilitar una mejor comprensión interna del comportamiento del modelo.
  • Aporta pruebas que respalden los resultados individuales de Pangram y ofrécelas explicaciones más claras.

Si eres investigador y te interesa la interpretabilidad, la investigación sobre la detección de la IA o cualquier otro aspecto de este trabajo, ponte en contacto con nosotros en elyas@pangram.com.

    Ver en el espacio Pangram | Pangram Labs