¡Anunciamos una nueva colaboración con Proofig! Más información

Presentamos la identificación mediante IA: Pangram puede distinguir los diferentes LLM entre sí.

Bradley Emi
11 de febrero de 2025

Pangram es el software líder en la detección de textos generados por IA escritos por ChatGPT, Claude, Gemini y otros, y en la distinción entre textos escritos por IA y textos escritos por humanos.

Ahora vamos un paso más allá y lanzamos un modelo avanzado que no solo puede detectar contenido generado por IA, sino que también puede determinar de qué LLM proviene un texto generado por IA. Llamamos a nuestra nueva tecnología «Identificación de IA».

Identificación mediante IA

Intuitivamente, la gente está empezando a identificar que los diferentes LLM tienen diferentes estilos de escritura. Por ejemplo, ChatGPT es conocido por ser bastante directo y sencillo, Claude es conocido por ser más fluido y coloquial, Grok es conocido por ser sin censura y provocador, y Deepseek-R1 está empezando a ser conocido por ser divagador y prolijo.

Graham Neubig se burla de las diferentes tendencias estilísticas de los distintos modelos de lenguaje grande (LLM).

Ethan Mollick reflexiona sobre la agradable personalidad de Claude Sonnet.

Un estudio reciente de Lisa Dunlap y sus colaboradores de la Universidad de California en Berkeley analizó las diferencias cualitativas (o, de manera informal, las «vibraciones») de diferentes LLM. Descubrieron muchas cosas interesantes, como que «Llama es más divertido, utiliza más formatos, ofrece más ejemplos y hace muchos menos comentarios sobre ética que GPT y Claude». La implicación es que el rendimiento del modelo no siempre se ajusta a las preferencias humanas: aunque GPT-4 y Claude-3.5 son modelos más avanzados que la serie Llama, Llama siempre parece superar sus expectativas en Chatbot Arena, una clasificación de LLM basada en Elo y en crowdsourcing que se basa en las preferencias sobre las respuestas a las mismas preguntas. ¿Son los modelos que funcionan bien en Chatbot Arena más inteligentes y capaces, o simplemente intentan manipular la psicología humana de una manera que los hace más «agradables»? Y algunos modelos son más útiles y agradables que otros, ¿es importante que sean menos capaces de resolver problemas de razonamiento de nivel de doctorado? Estas son preguntas que vale la pena estudiar y que son importantes para comprender la utilidad de sistemas como Chatbot Arena frente a las evaluaciones de modelos tradicionales.

En Pangram nos preguntamos si sería posible que nuestro modelo utilizara estas vibraciones para identificar y distinguir estos LLM entre sí.

Sistema de identificación mediante IA de Pangram

De forma similar a cómo entrenamos nuestro modelo básico de detección de IA para distinguir la escritura generada por IA del texto humano, también entrenamos el mismo modelo de detección para realizar la identificación de IA utilizando una técnica denominada aprendizaje multitarea. En la práctica, clasificamos los distintos modelos lingüísticos en nueve familias, que hemos determinado mediante extensos experimentos.

Las familias son las siguientes:

  1. GPT-3.5
  2. GPT-4 (incluye GPT-4o, GPT-4-turbo y GPT-4o-mini)
  3. Modelos de razonamiento de OpenAI
  4. Claude
  5. Google (incluye tanto las variantes Gemini como Gemma)
  6. Grok
  7. DeepSeek
  8. Amazon Nova
  9. Otros (incluye LLaMA, Mistral, Qwen y otros derivados de código abierto de estos modelos)

La forma en que lo logramos en la práctica es añadiendo otra «cabeza» a nuestra red neuronal. Cuando supervisamos la tarea de detección de IA, también supervisamos la tarea de identificación de IA pasando la etiqueta del modelo a la red y retropropagando el error en la identificación de IA, así como en la predicción de detección.

Fuente de la imagen: GeeksForGeeks

Casi todas las capas del modelo se comparten entre las dos tareas, y solo se divide la capa de predicción final.

En el aprendizaje multitarea, observamos que algunas tareas se complementan entre sí cuando se aprenden juntas, mientras que otras se perjudican mutuamente. En biología, un concepto similar es la idea de simbiosis frente a parasitismo. Por ejemplo, un pez payaso que vive en una anémona de mar es un ejemplo de simbiosis: el pez payaso se alimenta de depredadores que pueden dañar a la anémona, mientras que el pez payaso está protegido de sus propios depredadores al camuflarse y esconderse dentro de la anémona.

Hemos descubierto que añadir la tarea de identificación de LLM es simbiótico con la tarea de detección de LLM. En otras palabras, pedir a nuestro modelo que no solo detecte el texto generado por IA, sino que también identifique el modelo del que proviene, es útil en general para poder detectar la IA. Otros investigadores también han confirmado que los distintos LLM no solo se distinguen del texto humano, sino que también se distinguen entre sí.

Una incrustación es una representación de un fragmento de texto como un vector numérico. Los valores reales de la incrustación no tienen sentido por sí solos, pero cuando dos incrustaciones están muy próximas entre sí, significa que tienen un significado similar o un estilo similar. Mediante una técnica denominada UMAP, podemos visualizar las incrustaciones, que son de muy alta dimensión, en un espacio bidimensional. Estos autores descubrieron que, cuando los documentos escritos por humanos y los LLM se convierten en incrustaciones de estilo, como se puede ver en la imagen anterior, todos los documentos correspondientes al mismo LLM son separables en el espacio de incrustación. Esto significa que, en general, todos los documentos escritos por el mismo LLM son más similares en estilo que los escritos por diferentes LLM, o por LLM y humanos.

Este resultado nos dio la confianza de que era posible crear un clasificador capaz de identificar el LLM de origen.

Precisión de la identificación mediante IA

Nuestro modelo tiene una precisión del 93 % a la hora de identificar la familia LLM correcta de la que procede un texto generado por IA. A continuación se muestra la matriz de confusión, que muestra la frecuencia con la que nuestro modelo identifica correctamente cada familia LLM (celdas diagonales) frente a la frecuencia con la que confunde un LLM con otro (celdas fuera de la diagonal). Cuanto más oscuro es el color, más predicciones caen en esa celda. Un modelo perfecto tendría cuadrados oscuros solo a lo largo de la diagonal y cuadrados blancos en todas las demás posiciones.

Algunas observaciones interesantes sobre nuestra matriz de confusión:

  • Las confusiones se producen con mayor frecuencia entre familias de modelos. Por ejemplo, GPT-4 se confunde a menudo con la serie de razonamiento de OpenAI. Esto tiene sentido, ya que es probable que GPT-4 sea un componente o un punto de partida para los modelos de razonamiento de OpenAI.

  • El modelo confunde con mayor frecuencia los LLM con «Otros» que con LLM específicos. Esto demuestra que, en los casos en los que el modelo no está seguro, es más probable que opte por «Otros» en lugar de comprometerse con un LLM concreto.

Aunque el clasificador LLM no es perfecto, suele ser preciso y, lo que es más importante, cuando se equivoca, confunde ciertos sistemas de IA con otros sistemas de IA, pero no confunde los resultados de los sistemas de IA con la escritura humana genuina.

¿Por qué es importante la identificación mediante IA?

Creíamos que era importante ir más allá de la detección de IA y resolver también la identificación de IA por varias razones.

  • En primer lugar, creemos que enseñar al modelo a distinguir los estilos de escritura de diferentes LLM, lo cual es una tarea más difícil que simplemente identificar si algo es IA o no, es útil para reforzar el rendimiento del propio detector de IA. Al pedirle al modelo que vaya más allá, en cierto modo está adquiriendo habilidades avanzadas y conocimientos latentes que le ayudan a generalizar la detección de texto generado por IA con mayor precisión.

  • La interpretabilidad es otra razón por la que queremos mostrar los resultados del clasificador LLM. Queremos generar confianza en que el modelo realmente sabe lo que está haciendo bajo el capó, y no solo está haciendo conjeturas aleatorias (como muchos otros detectores aleatorios). Al mostrar no solo la puntuación de IA, sino también de qué LLM proviene el texto, esperamos generar confianza en la capacidad del modelo para comprender los matices del estilo de escritura de la IA.

  • Por último, queremos descubrir patrones a lo largo del tiempo: ¿qué LLM se utilizan en la práctica y con qué frecuencia? ¿Cuáles son los LLM preferidos por los estudiantes, frente a los estafadores y los programadores? Este es el tipo de preguntas que ahora esperamos poder responder en futuros estudios.

Conclusión

Esperamos que disfrutes probando nuestra función de identificación mediante IA y que te resulte útil para comprender las personalidades y estilos innatos de las diferentes familias LLM. Para obtener más información, ponte en contacto con info@pangram.com.

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.