¡Anunciamos una nueva colaboración con Proofig! Más información

¿Cómo funciona la detección de IA?

Alex Roitman
9 de octubre

Puntos clave:

  • Los LLM muestran ciertos patrones que permiten a las herramientas de detección de IA identificar si se trata de contenido generado por humanos o por IA.
  • Los detectores antiguos se basaban en la irregularidad y la perplejidad, pero estos son poco fiables. Los nuevos detectores funcionan mucho mejor y se basan en conjuntos de datos más grandes y en el aprendizaje activo.
  • Al elegir un detector, los usuarios deben determinar qué índices de falsos positivos y falsos negativos les parecen aceptables. También deben determinar si necesitan un verificador de plagio u otras funciones antes de seleccionar una herramienta.
  • Las personas que no han recibido formación en detección de IA no son muy buenas en ello. Sin embargo, aquellas que sí la han recibido o que están expuestas habitualmente a textos generados por IA pueden identificar mejor el contenido de IA que las que no han recibido formación. Esta detección, combinada con software, puede funcionar muy bien.

¿Qué son los detectores de IA?

La IA se puede detectar. No es magia negra, sino algo que se basa en mucha investigación. En una era en la que el contenido generado por IA es cada vez más frecuente en el ámbito académico, los medios de comunicación y los negocios, la capacidad de distinguir entre el texto escrito por humanos y el escrito por máquinas es una habilidad fundamental. La IA toma decisiones lingüísticas, estilísticas y semánticas que pueden ser detectadas por un ojo entrenado o por un software de detección automatizado suficientemente bueno. Esto se debe a que podemos entender por qué la IA habla como lo hace y cuáles son los patrones que podemos utilizar para detectarla.

¿Cómo funcionan los modelos de lenguaje grandes?

Antes de hablar sobre cómo funciona el software de detección de IA, es importante comprender que los modelos de inteligencia artificial son distribuciones de probabilidad. Un modelo de lenguaje grande (LLM), como ChatGPT, es una versión muy, muy complicada de esto, que predice constantemente la siguiente palabra o «token» más probable en una secuencia. Estas distribuciones de probabilidad se aprenden a partir de una enorme cantidad de datos, que a menudo abarcan una parte significativa de la Internet pública.

Una pregunta que se escucha a menudo es: «¿Los modelos lingüísticos de IA son el promedio de todos los escritos humanos?». La respuesta es claramente no. Los modelos lingüísticos no toman solo el promedio de lo que dicen todos los humanos. Por un lado, los modelos lingüísticos hacen elecciones muy peculiares. También son muy sesgados debido a los conjuntos de datos de entrenamiento y los sesgos de sus creadores. Por último, los LLM modernos están optimizados para seguir instrucciones y decir cosas que los usuarios quieren oír, en lugar de buscar la corrección o la precisión, una característica que los convierte en asistentes útiles, pero en fuentes de verdad poco fiables.

Esto es el resultado del moderno procedimiento de formación LLM, que consta de tres etapas:

  • Preentrenamiento: durante esta fase del entrenamiento, el modelo aprende los patrones estadísticos del lenguaje. Los sesgos de los datos de entrenamiento se reflejan en estos patrones. Por ejemplo, los datos que aparecen con frecuencia en Internet, como Wikipedia, están sobrerrepresentados, por lo que el texto generado por la IA suele tener un tono formal y enciclopédico. Además, se utiliza mano de obra barata y subcontratada para crear los datos de entrenamiento, por lo que palabras como «profundizar», «tapiz» e «intrincado» se vuelven extremadamente comunes en el texto generado por la IA, lo que refleja las normas lingüísticas de los creadores de los datos en lugar de las del usuario final.
  • Ajuste de instrucciones: durante esta fase, el modelo aprende a seguir instrucciones y obedecer órdenes. La consecuencia es que el modelo aprende que es mejor seguir instrucciones que presentar información precisa y correcta. Esto da lugar a un comportamiento adulador o «complaciente», en el que la IA da prioridad a generar una respuesta útil y agradable, incluso si para ello tiene que inventar hechos o «alucinar». Para ellos es más importante complacer a la gente que obtener la información correcta.
  • Alineación: durante esta fase, el modelo aprende a decir lo que le gusta y prefiere a la gente. Aprende qué cosas son «buenas» y «malas» para decir. Sin embargo, estos datos de preferencias pueden ser extremadamente sesgados, ya que a menudo favorecen respuestas neutras, seguras e inofensivas. Este proceso puede despojar al modelo de una voz distintiva, lo que le lleva a evitar la controversia o las opiniones contundentes. El LLM no tiene una base subyacente en la verdad o la corrección.

Los modelos de IA generativa son productos lanzados por empresas tecnológicas que introducen intencionadamente sesgos y comportamientos que se reflejan en sus resultados.

¿Cuáles son los patrones en el lenguaje de la IA?

Una vez que comprendas cómo se entrenan los LLM, podrás detectar las «señales» de las herramientas de escritura con IA. A menudo no es una sola señal, sino una combinación de todas estas palabras lo que activa los detectores.

Lenguaje y estilo

  • Elección de palabras: los redactores de contenido de IA tienen palabras favoritas, como: aspecto, retos, profundizar, mejorar, tapiz, testamento, auténtico, completo, crucial, significativo, transformador, y adverbios como además y por otra parte. Esto se debe al sesgo de los conjuntos de datos de preentrenamiento. El uso frecuente de estas palabras puede crear un tono excesivamente formal o grandilocuente, que a menudo resulta fuera de lugar en el contexto de un ensayo típico de un estudiante o de una comunicación informal.
  • Patrones de redacción: La escritura con IA utiliza patrones de redacción como «mientras nosotros [verbo] el tema», «es importante señalar», «no solo, sino también», «allanando el camino» y «cuando se trata de». Estas frases, aunque gramaticalmente correctas, se utilizan a menudo como relleno conversacional y pueden hacer que la escritura resulte genérica y formulista.
  • Ortografía y gramática: La escritura generada por IA suele utilizar una ortografía y gramática perfectas, y tiende a emplear oraciones complejas. La escritura humana utiliza una mezcla de oraciones simples y complejas, e incluso los escritores expertos a veces utilizan patrones gramaticales que no son «perfectos según las reglas» por razones estilísticas, como el uso de fragmentos de oraciones para enfatizar.

Estructura y organización

  • Párrafos y estructura de las oraciones: La escritura generada por IA suele utilizar párrafos muy organizados, todos ellos de la misma longitud, y estructuras similares a listas. Esto puede dar lugar a un ritmo monótono que carece de la variación natural de la escritura humana. Esto también puede aplicarse a la longitud de las oraciones.
  • Introducción y conclusión: los ensayos generados por IA suelen tener una introducción y una conclusión muy pulcras, y la conclusión suele ser muy larga, comienza con «En general» o «En conclusión» y repite la mayor parte de lo que ya se ha escrito, esencialmente reformulando la tesis y los puntos principales sin añadir nuevas ideas o síntesis.

Propósito y personalidad

  • Propósito e intención: La redacción suele ser muy vaga y estar llena de generalidades. Esto ocurre porque el ajuste de las instrucciones da demasiada prioridad al cumplimiento estricto de las indicaciones y, para no desviarse del tema, el modelo aprende que lo mejor es ser muy vago y genérico para minimizar el riesgo de equivocarse.
  • Reflexión y metacognición: la IA es muy mala a la hora de reflexionar y relacionar la escritura con experiencias personales... ¡porque no tiene experiencias personales con las que relacionarse! La escritura humana puede mostrar la voz única y la experiencia personal de su autor, estableciendo conexiones y generando ideas novedosas que no son simplemente una remezcla de información ya existente.
  • Cambios bruscos en el estilo y el tono: A veces se produce un cambio muy discordante y brusco en el tono y el estilo. Esto ocurre cuando un estudiante utiliza la IA para parte de su redacción, pero no para toda, lo que da lugar a un producto final incoherente y desarticulado.

Cómo funciona la detección de IA: tres pasos

  • Entrenar el modelo de detección de IA: En primer lugar, se entrena el modelo. Los primeros detectores de IA no funcionaban muy bien porque intentaban detectar fragmentos de texto con alta perplejidad o alta irrupción. La perplejidad es lo inesperado o sorprendente que resulta cada palabra de un fragmento de texto para un modelo lingüístico grande. La irrupción es el cambio en la perplejidad a lo largo de un documento. Sin embargo, este enfoque tiene varios defectos y, a menudo, no detecta los resultados de la IA. Además, solo utilizan un conjunto de datos de texto limitado para entrenarse. Los modelos modernos y exitosos, como Pangram, utilizan un conjunto de datos más amplio y emplean técnicas como el aprendizaje activo para obtener resultados más precisos.
  • Introduzca el texto que necesita clasificarse y tokenícelo: un usuario proporciona la entrada. Cuando un clasificador recibe el texto de entrada, lo tokeniza. Eso significa que toma todo el texto y lo descompone en una serie de números que el modelo puede interpretar. A continuación, el modelo convierte cada token en una incrustación, que es un vector de números que representa el significado de cada token.
  • Clasifica el token como humano o IA: la entrada se pasa a través de la red neuronal, produciendo una incrustación de salida. Un cabezal clasificador transforma la incrustación de salida en una predicción de 0 o 1, donde 0 es la etiqueta humana y 1 es la etiqueta de IA.

¿Qué pasa con los falsos positivos y los falsos negativos?

El valor de una herramienta de detección de IA se mide por el número de falsos positivos (FPR) y falsos negativos (NPR) que se obtienen al utilizarla. Un falso positivo se produce cuando un detector predice erróneamente que una muestra de contenido escrito por un humano ha sido escrita por una IA. Por el contrario, un falso negativo se produce cuando una muestra generada por una IA se predice erróneamente como texto escrito por un humano.

Detección humana frente a detección automatizada

Si decide detectar la IA solo a simple vista, debe estar capacitado para ello. Las personas sin experiencia no pueden hacerlo mejor que adivinando al azar. Ni siquiera los lingüistas avanzados pueden detectar la IA sin una formación específica. Nuestra recomendación es utilizar ambos métodos para obtener los mejores resultados, creando así un proceso de evaluación más sólido y justo.

Por su parte, los detectores de contenido generado por IA pueden indicar si algo ha sido creado por herramientas de IA. Los seres humanos no solo pueden indicar si algo ha sido creado por IA, sino que pueden añadir contexto y matices adicionales a esa decisión. Un ser humano conoce el contexto: muestras de redacciones anteriores de los alumnos, cómo es la redacción de su nivel académico y cómo es la respuesta típica de un alumno a una tarea. Este contexto es fundamental, ya que la idoneidad del uso de la IA puede variar enormemente en función de las instrucciones de la tarea.

Las herramientas de detección de IA son solo el principio. No son una prueba concluyente de que un estudiante haya violado la integridad académica, sino más bien un dato inicial que justifica una investigación más profunda y contextual. El uso de IA puede ser involuntario, accidental o incluso permitido dentro del ámbito de tu tarea concreta: ¡depende!

Bonus: ¿Qué hay de los humanizadores?

Los humanizadores son herramientas que se utilizan para «humanizar» el contenido generado por IA con el fin de evitar su detección. Los redactores de contenido suelen utilizarlos para cambiar el aspecto de los textos generados por IA. Los humanizadores parafrasean el texto, eliminan palabras específicas y añaden «errores» similares a los humanos a un contenido. A veces, esto hace que el texto sea prácticamente ilegible o reduce significativamente su calidad. Muchos detectores de IA entrenan su software para detectar texto humanizado. A menudo, utilizar un humanizador supone un riesgo, ya que puede reducir drásticamente la calidad del texto, lo que resulta especialmente preocupante en el caso de los trabajos de los estudiantes.

Ahora que ya sabes cómo funcionan, prueba con tu propio contenido. ¿Es IA o humano?

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.