Noticias

La teoría de la información que explica por qué la escritura generada por IA es tan mala

19 de mayo de 2026

Índice

La voz como distribución de probabilidad
La trampa RLHF y el «dialecto de consenso del Annotator»
La ilusión del camuflaje (por qué no funciona solicitar el estilo)
El fracaso de «Temperature and Friends»
¿Y qué?

Aviso: Durante el proceso de edición se utilizó un modelo de lenguaje basado en IA para redactar descripciones técnicas y sugerir mejoras en la estructura y el estilo. En la versión final del artículo se han incorporado varias de las sugerencias de la IA.

He leído una cantidad vergonzosamente grande de obras de ficción, sobre todo de ciencia ficción. Además, utilizo todos los modelos de IA más destacados que se lanzan al mercado para mi trabajo como ingeniero de software.

Esas dos experiencias me dejaron con la inquietante sensación de que la IA tiene una «voz» sorprendentemente monótona en comparación con la de un autor humano de gran talento.

Cualquiera que sienta pasión por la literatura sabe a qué me refiero. He leído obras de unos cinco mil autores diferentes, pero, sinceramente, creo que aunque solo hayas leído a media docena de ellos, te darás cuenta de que cada autor tiene su propio estilo.

En comparación con las voces únicas de los escritores humanos, los textos generados por la IA suenan notablemente uniformes. Resulta que hay una buena razón para ello, y tiene que ver con la teoría de la información.

La voz como distribución de probabilidad

Una «voz» autoral única no es aleatoria, ni es algo corriente. Se trata de una distribución de probabilidad específica; llamémosla P_autor. Cuando un autor escribe, toma muestras de un proceso altamente idiosincrásico. Tiene probabilidades condicionales específicas en cuanto a cómo aplica los conceptos, el ritmo, el vocabulario y otras herramientas estilísticas.

Lo que hace que una voz sea reconocible son las elecciones de baja frecuencia y gran impacto que un autor toma de forma sistemática (la cola larga de la distribución). Si digo «Ted Chiang», pensarás inmediatamente en lo sencillas que son sus frases desde el punto de vista sintáctico, pero lo densas que resultan desde el punto de vista semántico (es un estilo que admiro, pero, como demuestra este paréntesis, no puedo imitar). Si digo «Ursula K. Le Guin», pensarás en cómo puede ser tan clara y sensata y, aun así, transmitir una sensación lírica; no sé describir bien su estilo, pero los lectores de Le Guin saben a qué me refiero.

En definitiva, lo que quiero decir es que la forma correcta de medir hasta qué punto un texto «parece escrito por una IA» no consiste en comprobar si es predecible en general —la mayoría de los textos bien redactados son, en cierta medida, predecibles—, sino en medir la divergencia de KL entre la distribución de salida del modelo y la distribución de un autor concreto: D_KL(P_autor || Q_modelo). Para quienes no estén familiarizados con la divergencia KL, esta mide en qué medida la distribución del modelo no logra cubrir las elecciones del autor (para ser más específicos, mide el coste de información adicional esperado al codificar muestras de P utilizando un código optimizado para Q). Cuando esta divergencia es grande y estructurada, se percibe una voz.

La trampa RLHF y el «dialecto de consenso del Annotator»

Durante el preentrenamiento, un modelo de lenguaje a gran escala genera un mapa de la distribución generalizada del texto humano. Esta distribución de base, Q_base, es enormemente amplia. En su espacio latente, tiene la capacidad de aproximarse a casi cualquier P_author.

La trampa a la que me refiero tiene su origen en la alineación. Para que el modelo sea seguro y útil, los laboratorios aplican técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y otras similares. Los detalles varían, pero la conclusión es que el modelo se optimiza para generar resultados que obtengan una buena puntuación frente a una señal de recompensa derivada de las preferencias humanas (o de la IA).

Esto no hace que el modelo se acerque a la media estadística del inglés. Lo hace que se acerque a algo con una distribución de probabilidad diferente; llamémoslo el «dialecto de consenso de los anotadores».

El mecanismo para llegar a ello es el siguiente: cuando los evaluadores (trabajadores temporales contratados para evaluar los resultados, expertos o quien sea) evalúan los resultados, una redacción peculiar genera una gran variabilidad en las puntuaciones. Mi estilo de redacción podría obtener una puntuación de 5/5 de un evaluador y de 2/5 de otro. Sin embargo, una respuesta estéril, simétrica y muy cautelosa podría obtener una puntuación de 4/5 en todos los casos. El algoritmo de optimización dicta que la forma más segura de maximizar la recompensa esperada es reducir la variación. Es el equivalente conversacional a la decoración del vestíbulo de un hotel.

Quizá pienses: «¡Joe, esa descripción no es justa! ¡Las técnicas de alineación más recientes están diseñadas expresamente para preservar la diversidad!». Aunque eso es cierto, los métodos más recientes siguen optimizándose en función de un resultado «preferido», lo que sigue penalizando la asunción de riesgos de alta variabilidad frente a una prosa segura y ampliamente aceptable.

Esta es una afirmación que se puede comprobar (yo no la he comprobado, pero es comprobable). Si se midiera la divergencia de Kullback-Leibler entre los resultados alineados del modelo y un corpus compuesto, por ejemplo, por comunicaciones corporativas frente a ficción literaria, mi predicción es que la distribución del modelo se situaría mucho más cerca del centro corporativo. Que yo sepa, nadie ha publicado esta medición concreta, pero los cálculos de optimización lo predicen con gran certeza.

La ilusión del camuflaje (por qué no funciona solicitar el estilo)

Sé lo que estás pensando: sí, pero se puede indicar al modelo que se salga de este dialecto. «Escribe al estilo de una novela negra de los años veinte» o lo que sea (una parte de mí tiene ganas de ver cómo quedaría este artículo si le pidiera a un modelo que lo reescribiera como si fueran letras de Lupe Fiasco). Esto genera un texto que parece diferente del «dialecto de consenso de los anotadores», pero sigue resultando sospechosamente uniforme.

Esto se debe a que existe una diferencia matemática entre desplazar la media de una distribución y reproducir su estructura de varianza.

Cuando se le pide a un modelo que imite a un autor, este desplaza su centro de gravedad. Calcula la media estadística del vocabulario, la estructura sintáctica y otros aspectos estilísticos del autor de referencia, y se desplaza hacia allí. Sin embargo, aplica a esa nueva ubicación la misma mecánica de reducción de la varianza de la que hemos estado hablando.

El estilo humano se basa en una irregularidad estructurada. Un autor tiene un ritmo básico, pero lo rompe intencionadamente mediante recursos como introducir un fragmento de forma abrupta, utilizar un verbo poco habitual o enredar una frase para lograr un efecto emocional. La estilometría computacional cuenta con herramientas para medir esto: los exponentes de Hurst en series temporales de longitud de frase pueden revelar dependencias de largo alcance en la escritura humana de las que carecen los textos generados por IA. Los autores humanos modulan su diversidad léxica de formas que los modelos no hacen.

En resumen, cuando pides que se escriba en un estilo concreto, el modelo capta los rasgos característicos de ese estilo, pero suaviza todas las irregularidades. Genera una caricatura de lo que has pedido.

El fracaso de «Temperature and Friends»

Si la distribución de la IA es demasiado limitada, ¿por qué no podemos simplemente ampliarla?

El enfoque más habitual es el escalado de temperatura. Al aumentar la temperatura T, se dividen los logits sin procesar del modelo por T antes de calcular las probabilidades, lo que aplana toda la distribución y obliga al modelo a elegir palabras menos probables. Pero lo hace a ciegas. La excentricidad de un autor humano depende en gran medida del contexto. Los seres humanos rompen las reglas de formas muy específicas y coherentes, mientras que el escalado de temperatura solo introduce ruido estocástico.

Espero que esto resulte bastante obvio: en definitiva, al aumentar la temperatura, se pasa directamente de «sospechosamente uniforme» a «sospechosamente aleatorio», sin pasar en absoluto por el rango humano.

Sé que existen estrategias de decodificación más sofisticadas. El muestreo «top-p» (núcleo), el filtrado «top-k», las penalizaciones por repetición y la orientación sin clasificador pretenden lograr una redistribución más específica. Ayudan en cierta medida, pero ninguna de ellas resuelve el problema fundamental de que se trata de intervenciones en tiempo de inferencia que operan sobre un modelo cuya filosofía de funcionamiento (si se le puede llamar así) se definió durante la alineación.

Hay también un matiz importante que uno de mis amigos me señaló recientemente: la alineación no borra la capacidad latente del modelo base para la variación estilística. Los pesos preentrenados siguen codificando la mayor parte de la riqueza de Q_base, siempre y cuando se disponga de suficientes pesos. Existen técnicas emergentes de control en tiempo de inferencia, como la ingeniería de representación, que pueden recuperar parcialmente la variación suprimida al acceder al espacio latente subyacente. Sin embargo, se trata de áreas de investigación y no es algo disponible en los productos de IA comerciales.

Del mismo modo, el aprendizaje en contexto con un contexto extenso también puede ofrecer resultados ligeramente mejores, pero los mecanismos de atención se atenúan cuando el contexto alcanza un tamaño suficiente (y se empezará a volver a la distribución uniforme a medida que el contexto crezca).

¿Y qué?

La conclusión principal es que las decisiones de diseño que se aplican a las técnicas relacionadas con el RLHF harán que estas «voces» de la IA sean detectables durante mucho más tiempo de lo que nadie quiere admitir.

Además, resulta útil pensar en el estilo de un autor como una distribución de probabilidad específica de alta dimensión, y te reto a que intentes identificar por ti mismo algunos de los valores de la divergencia KL la próxima vez que leas a tu autor favorito. ¿De dónde proviene la voz del autor? Es un ejercicio divertido que puede aumentar tu disfrute del texto, y el difícil proceso de practicar e interiorizar nuevos conocimientos es muy recomendable en estos tiempos de atrofia de habilidades provocada por los modelos de lenguaje grande (LLM).

Joe Stech

Joe StechEscritor invitado

Joe Stech es el editor de la serie de antologías anuales «Think Weirder: The Year's Best Science Fiction Ideas». Además, trabaja como arquitecto jefe de soluciones en el área de desarrollo y habilitación de plataformas en Arm. Las opiniones aquí expresadas son exclusivamente suyas.

Más de Joe Stech

Lecturas relacionadas

Pangram Space: un proyecto de investigación interactivo

Pangram Space: un proyecto de investigación interactivo

Presentamos Pangram Space, un explorador interactivo de representaciones para las activaciones internas de Pangram 3.3.2.

Elyas Masrour18 de junio de 2026

Los profesionales del marketing están malgastando el presupuesto publicitario en contenido generado por IA

Los profesionales del marketing están malgastando el presupuesto publicitario en contenido generado por IA

A medida que los modelos de lenguaje grande (LLM) se vuelvan más sofisticados, los estafadores y los spammers se darán cuenta de la oportunidad que supone utilizar la IA generativa para difundir contenido falso por toda la red con la intención de quedarse con los ingresos publicitarios.

Ashan Marla24 de junio de 2024

Presentamos Open Pangram

Presentamos Open Pangram

Anunciamos el lanzamiento de versiones de Pangram con pesos abiertos y código fuente disponible, basadas en la tecnología EditLens que presentamos en nuestro artículo de ICLR 2026.

Katherine Thai24 de marzo de 2026

Pangram se asocia con Proofig AI para incorporar la detección de textos generados por IA a PubShield

Pangram se asocia con Proofig AI para incorporar la detección de textos generados por IA a PubShield

Pangram y Proofig AI se han asociado para ofrecer mejores herramientas de integridad y transparencia a investigadores, instituciones y publicaciones.

Max Spero19 de febrero de 2026

Tremau y Pangram Labs se alían para abordar el contenido generado por IA

Tremau y Pangram Labs se alían para abordar el contenido generado por IA

Ahora que nos encontramos en vísperas del año electoral más importante de la historia, la relación entre tecnología y democracia vuelve a ocupar un lugar central.

Max Spero y Tremau17 de abril de 2024

Lo último en investigación sobre detección de IA

Lo último en investigación sobre detección de IA

El pangram ha ido apareciendo cada vez más en los estudios que se publican en el ámbito de la detección de IA.

Elyas Masrour4 de marzo de 2025

Suscríbete a nuestras novedades en

Manténgase informado con nuestras últimas noticias y ofertas.

soc2

SOC2 TIPO 2

Verificado por AssuranceLab

© 2025 Pangram. Todos los derechos reservados.

info@pangram.com

Únete a nuestra comunidad

© 2025 Pangram. Todos los derechos reservados.