¡Anunciamos una nueva colaboración con Proofig! Más información

Pangram predice que el 21 % de las revisiones de ICLR son generadas por IA.

Bradley Emi
18 de noviembre de 2025

¿Están los autores utilizando modelos de lenguaje grande (LLM) para escribir artículos de investigación sobre IA? ¿Están los revisores externos subcontratando la redacción de sus reseñas de estos artículos a herramientas de IA generativa? Para averiguarlo, analizamos los 19 000 artículos y las 70 000 reseñas de la Conferencia Internacional sobre Representaciones de Aprendizaje, uno de los foros de publicación de investigación sobre IA más importantes y prestigiosos. Gracias a OpenReview y al proceso de revisión pública de ICLR, todos los artículos y sus revisiones se publicaron en línea, y este proceso de revisión abierta permitió realizar este análisis.

Hemos publicado todos los resultados en iclr.pangram.com.

¿Por qué estudiar las propuestas presentadas al ICLR?

Bueno, por un lado, ¡nos ofrecieron una recompensa!

El tuit de Graham Neubig ofreciendo una recompensa por analizar las propuestas presentadas al ICLR.

Hablando en serio, muchos autores y revisores de ICLR han observado algunos casos de mala conducta científica flagrante relacionada con la IA, como un artículo generado por LLM con referencias completamente inventadas, y muchos autores que afirman haber recibido revisiones generadas íntegramente por IA.

¡Un autor incluso informó de que un revisor le hizo 40 preguntas generadas por IA en su revisión por pares!

Queríamos medir la magnitud de este problema en general: ¿se trata de ejemplos de mal comportamiento aislados o son indicativos de una tendencia más generalizada? ¡Por eso aceptamos la oferta de Graham!

¿Se permite el uso de la IA en las presentaciones y revisiones por pares de la ICLR?

ICLR tiene una política muy clara y descriptiva sobre lo que está permitido y lo que no en cuanto al uso de LLM tanto en artículos como en reseñas.

Política 1. Cualquier uso de un LLM debe ser revelado, siguiendo las políticas del Código Ético que establecen que «todas las contribuciones a la investigación deben ser reconocidas» y que los colaboradores «deben esperar recibir crédito por su trabajo».

Política 2. Los autores y revisores de ICLR son los responsables últimos de sus contribuciones, de acuerdo con la política del Código Ético que establece que «los investigadores no deben realizar afirmaciones falsas o engañosas de forma deliberada, inventar o falsificar datos, ni tergiversar los resultados».

El ICLR también cuenta con directrices que los autores deben seguir al utilizar LLM en sus artículos y reseñas. En resumen:

  • Los autores pueden utilizar los LLM como ayuda para redactar sus artículos y como asistentes de investigación, pero deben revelar este uso y son responsables de la integridad científica de su artículo.
  • Los autores pueden utilizar modelos de lenguaje grande (LLM) como ayuda para la ortografía y la gramática en sus revisiones de LLM, pero el uso de un LLM para escribir toda la revisión puede suponer una infracción del Código Ético, tanto por presentar una opinión o punto de vista externo sobre el artículo como propio, como por violar la confidencialidad.

Por lo tanto, no realizamos este estudio con el fin de señalar a los infractores individuales, ya que los LLM están permitidos tanto en el proceso de presentación de artículos como en el de revisión por pares. En cambio, queremos llamar la atención sobre el uso de la IA en los artículos y en la revisión por pares, y destacar que las revisiones generadas íntegramente por IA (que, de hecho, probablemente constituyan violaciones del Código Ético) son un problema mucho más extendido de lo que muchos creen.

Metodología

Primero descargamos todos los archivos PDF de las propuestas presentadas al ICLR utilizando la API de OpenReview. También descargamos todas las notas, lo que nos permitió extraer la revisión.

Descubrimos que el uso de un analizador de PDF convencional, como PyMuPDF, era insuficiente para los artículos de ICLR, ya que a menudo no gestionaba correctamente los números de línea, las imágenes y las tablas. Por lo tanto, con el fin de extraer el texto principal del artículo, utilizamos Mistral OCR para analizar el texto principal del artículo del PDF como Markdown. Dado que la IA también tiende a preferir la salida Markdown, con el fin de mitigar los falsos positivos derivados únicamente del formato, reformateamos el Markdown como texto sin formato.

A continuación, ejecutamos el clasificador de texto ampliado de Pangram en el texto sin formato analizado de estos PDF. La versión ampliada del clasificador primero divide el texto en segmentos y ejecuta el modelo de detección de IA en cada segmento individualmente. El resultado es un porcentaje que muestra cuántos segmentos dieron positivo en texto generado por IA, por lo que el resultado puede indicar que un documento está escrito íntegramente por humanos, generado íntegramente por IA o mixto, con algunos segmentos dando positivo y otros dando negativo.

También revisamos las revisiones por pares para la IA utilizando nuestro nuevo modelo EditLens. EditLens no solo es capaz de detectar la presencia de IA, sino que también puede describir el grado en que la IA participó en el proceso de edición. EditLens puede predecir que un texto se encuentra dentro de una de estas cinco categorías:

  • Escrito íntegramente por humanos.
  • Ligeramente editado con IA o asistido por IA.
  • Edición media con IA o asistida por IA
  • Editado o asistido en gran medida por IA
  • Generado íntegramente por IA

EditLens solo está disponible actualmente para los clientes de nuestra versión beta privada, pero estará disponible para el público a principios de diciembre. En las próximas semanas daremos más detalles sobre este modelo, pero en nuestro preprint de investigación describimos su rendimiento como lo último en generación de texto en coautoría y, según nuestras pruebas internas, tiene una precisión similar a la de nuestro modelo actual cuando se evalúa como clasificador binario, y una tasa de falsos positivos excepcionalmente baja, de 1 entre 10 000, en textos escritos íntegramente por humanos.

Resultados

En nuestro análisis anterior de los artículos de conferencias sobre IA, descubrimos que Pangram tiene una tasa de falsos positivos del 0 % en todos los artículos disponibles de ICLR y NeurIPS publicados antes de 2022. Aunque algunos de estos artículos se encuentran efectivamente en el conjunto de entrenamiento, no todos lo están, por lo que creemos que el rendimiento real de Pangram en el conjunto de pruebas es, en realidad, muy cercano al 0 %.

¿Qué hay de las revisiones por pares? Realizamos un experimento de control negativo adicional, en el que aplicamos el nuevo modelo EditLens a las 2022 revisiones por pares. Encontramos una tasa de error de aproximadamente 1 en 1000 en la edición ligera frente a la edición totalmente humana, una tasa de error de 1 en 5000 en la edición media frente a la edición totalmente humana y una tasa de error de 1 en 10 000 en la edición intensa frente a la edición totalmente humana. No encontramos confusiones entre la edición totalmente generada por IA y la edición totalmente humana.

Distribución de las predicciones de EditLens en las revisiones de ICLR 2022 (control negativo)

Para el experimento en sí, ejecutamos Pangram en todos los artículos y revisiones por pares. Estos son los principales resultados:

Descubrimos que el 21 %, es decir, 15 899 reseñas, habían sido generadas íntegramente por IA. Descubrimos que más de la mitad de las reseñas tenían algún tipo de participación de la IA, ya fuera en forma de edición, asistencia o generación completa por IA.

Distribución de las predicciones de EditLens en las revisiones de ICLR 2026

Por otro lado, los artículos enviados siguen siendo en su mayoría escritos por humanos (el 61 % fueron escritos principalmente por humanos). Sin embargo, encontramos varios cientos de artículos generados íntegramente por IA, aunque parecen ser casos atípicos, y el 9 % de los artículos enviados tenían más del 50 % de contenido generado por IA. Como advertencia, algunos artículos generados íntegramente por IA ya habían sido rechazados y eliminados de OpenReview antes de que tuviéramos la oportunidad de realizar el análisis.

Distribución del contenido sobre IA en las ponencias presentadas al ICLR 2026

Análisis

Encontramos algunas tendencias interesantes en los resultados que arrojan luz sobre cómo se está utilizando la IA tanto en la presentación de artículos como en las revisiones por pares, y cuáles son los efectos derivados de este uso en el propio proceso de revisión.

El uso de la IA en los artículos está correlacionado con un menor número de revisiones.

Contrariamente a un estudio anterior que demostró que los LLM suelen preferir sus propios resultados a la escritura humana cuando se utilizan como jueces, nosotros encontramos lo contrario: cuanto más texto generado por IA hay en una presentación, peores son las reseñas.

Puntuaciones medias de las reseñas por contenido de IA en los artículos

Esto podría deberse a múltiples razones. Una de ellas es que cuanto más se utiliza la IA en un artículo, menos bien pensado y ejecutado está el artículo en general. Es posible que cuando se utiliza la IA en la redacción científica, se utilice más a menudo para descargar trabajo y tomar atajos que como un asistente complementario. Además, el hecho de que los artículos generados íntegramente por IA reciban puntuaciones más bajas podría indicar que la investigación generada por IA sigue siendo de baja calidad y que (por ahora) no supone una contribución real a la ciencia.

Las reseñas de IA tienen puntuaciones más altas.

Puntuaciones medias de las reseñas según el nivel de participación de la IA

Hemos observado que cuanto mayor es la presencia de IA en una revisión, mayor es la puntuación. Esto es problemático: significa que, en lugar de reformular la opinión del revisor utilizando la IA como marco (si fuera así, cabría esperar que la puntuación media fuera la misma para las revisiones realizadas por IA y las realizadas por humanos), los revisores están externalizando también el juicio del artículo a la IA. Tergiversar la opinión del LLM como la opinión real del revisor es una clara violación del Código Ético. Sabemos que la IA tiende a ser aduladora, lo que significa que dice cosas que la gente quiere oír y que son agradables, en lugar de dar una opinión imparcial: ¡una propiedad completamente indeseable cuando se aplica a la revisión por pares! Esto podría explicar el sesgo positivo en las puntuaciones de las revisiones de IA.

Las reseñas de IA son más largas.

Longitud media de las reseñas según el nivel de participación de la IA

Anteriormente, una reseña más larga significaba que estaba bien pensada y era de mayor calidad, pero en la era de los LLM, a menudo puede significar lo contrario. Las reseñas generadas por IA son más largas y contienen mucho «contenido de relleno». Según Shaib et. al., en un artículo de investigación titulado «Measuring AI Slop in Text»(Medición del «slop» de la IA en el texto), una de las propiedades del «slop» de la IA es que tiene una baja densidad de información, lo que significa que la IA utiliza muchas palabras para decir muy poco en términos de contenido real.

Encontramos que esto también es cierto en las revisiones de LLM: la IA utiliza muchas palabras, pero en realidad no ofrece una retroalimentación muy densa en información. Consideramos que esto es problemático porque los autores tienen que perder tiempo analizando una revisión larga y respondiendo a preguntas vacías que en realidad no contienen comentarios muy útiles. También cabe mencionar que la mayoría de los autores probablemente solicitarán a un modelo de lenguaje grande una revisión de su trabajo antes de enviarlo. En estos casos, los comentarios de una revisión LLM son en gran medida redundantes e inútiles, porque el autor ya ha visto las críticas obvias que hará un LLM.

¿Hay acusaciones falsas?

Aunque la tasa de falsos positivos de Pangram es extremadamente baja, no es cero, por lo que tenemos la responsabilidad de cuantificar la fiabilidad de la herramienta antes de recomendarla para tomar decisiones discretas sobre el destino de un artículo (como una decisión de rechazo de escritorio) o sancionar a un revisor por pares. Medimos directamente la tasa de falsos positivos en el dominio utilizando los estudios de control negativo descritos anteriormente, pero ¿qué ocurre con otros conjuntos de datos, puntos de referencia y textos generales?

Documentamos la tasa de falsos positivos de Pangram en esta entrada anterior del blog.

  • La tasa global de falsos positivos de Pangram es de 1 entre 10 000 en los documentos del conjunto de pruebas.
  • La tasa de falsos positivos de Pangram en artículos científicos retenidos de ArXiV es de 1 entre 100 000.
  • La tasa de falsos positivos de Pangram en artículos médicos excluidos de PubMed es 0 (con una confianza de 3 decimales).

La precisión de Pangram también ha sido validada por múltiples estudios independientes, incluidos estudios recientes de UChicago Booth y la Asociación Americana para la Investigación del Cáncer.

Para poner estas cifras en contexto, la tasa de falsos positivos de Pangram es comparable a la tasa de falsos positivos de las pruebas de ADN o de las pruebas de detección de drogas: un falso positivo verdadero, en el que un texto generado íntegramente por IA se confunde con un texto totalmente humano, no es cero, pero es extremadamente raro.

¿Cómo puedes saber si has recibido una revisión por pares con IA?

Si eres un autor y sospechas que has recibido una reseña generada por IA, hay varios indicios reveladores que puedes buscar. Aunque Pangram puede detectar el texto generado por IA, también puedes identificar los indicios de las reseñas de IA a simple vista.

Hemos elaborado una guía general para detectar patrones de escritura generados por IA a simple vista, pero hemos observado algunas señales y marcadores adicionales presentes específicamente en las revisiones por pares realizadas por IA.

Algunas de las «señales» que observamos en las revisiones por pares de IA:

  • Estilos de encabezado: Las revisiones por pares generadas por IA suelen crear encabezados de sección en negrita con etiquetas de resumen de 2-3 palabras seguidas de dos puntos. Por ejemplo:

Puntos fuertes: Formulación clara del problema: el artículo aborda un problema real: los sistemas OCR basados en VLM producen alucinaciones en documentos degradados sin señalar la incertidumbre, lo que es peor que los sistemas OCR clásicos que producen resultados claramente distorsionados. La motivación está bien articulada. Metodología sistemática: el enfoque de entrenamiento en dos etapas (pseudoetiquetado de arranque en frío + GRPO) es razonable y está bien descrito. El diseño de recompensa multiobjetivo con salvaguardias contra la piratería de recompensas (especialmente el factor de amortiguación de desajuste de longitud η) demuestra una ingeniería cuidadosa.

Preguntas: 1. Generalización a degradaciones reales: ¿Pueden los autores evaluar documentos degradados del mundo real (por ejemplo, conjuntos de datos de documentos históricos) para demostrar que el enfoque se generaliza más allá del proceso específico de degradación sintética? 2. Comparación con los sistemas MinerU: MinerU y MinerU2.5 [2,3] representan avances recientes en el análisis de documentos. ¿Cómo se compara el método propuesto con estos sistemas en Blur-OCR? Si estos sistemas no pueden producir estimaciones de incertidumbre, ¿se pueden combinar con el enfoque de etiquetado propuesto?

  • Críticas superficiales en lugar de análisis genuinos: las reseñas generadas por IA tienden a centrarse en cuestiones superficiales en lugar de en preocupaciones reales sobre la integridad científica del artículo. Las críticas típicas de la IA pueden incluir la necesidad de realizar más ablaciones muy similares a las presentadas, solicitar un aumento del tamaño del conjunto de pruebas o del número de controles, o pedir más aclaraciones o más ejemplos.

  • Decir mucho con pocas palabras: las reseñas de IA suelen presentar una baja densidad de información, utilizando un lenguaje prolijo para expresar ideas que podrían expresarse de forma más concisa. Esta prolijidad supone un trabajo adicional para los autores, que deben analizar reseñas extensas para extraer las críticas sustantivas reales.

¿Por qué los artículos sobre IA y las revisiones por pares sobre IA son perjudiciales para el proceso científico?

A principios de este año, investigadores de la UNIST de Corea publicaron un documento de posición en el que exponen algunas de las razones del deterioro de la calidad del proceso de revisión por pares. A medida que la IA sigue creciendo como campo, la presión sobre los recursos del sistema de revisión por pares está empezando a mostrar fisuras. Simplemente, hay un número limitado de revisores cualificados para el aumento explosivo del número de artículos.

El mayor problema de los artículos de baja calidad generados por IA es que simplemente desperdician tiempo y recursos que son limitados. Según nuestro análisis, los artículos generados por IA simplemente no son tan buenos como los escritos por humanos y, lo que es aún más problemático, pueden ser generados a bajo coste por revisores deshonestos y fábricas de artículos que «disparan a ciegas» (envían un gran volumen de propuestas a una conferencia con la esperanza de que alguna de ellas sea aceptada por casualidad). Si se permite que los artículos generados por IA inunden el sistema de revisión por pares, la calidad de las revisiones seguirá disminuyendo y los revisores estarán menos motivados al tener que leer artículos de mala calidad en lugar de investigaciones reales.

Entender por qué las reseñas generadas por IA pueden ser perjudiciales es un poco más complejo. Estamos de acuerdo con el ICLR en que la IA puede utilizarse de forma positiva como ayuda para que los revisores articulen mejor sus ideas, especialmente cuando el inglés no es su lengua materna. Además, la IA a menudo puede proporcionar comentarios realmente útiles, y suele ser productivo para los autores simular el proceso de revisión por pares con los LLM, para que estos critiquen y encuentren fallos en la investigación, y detecten errores y equivocaciones que el autor podría no haber detectado inicialmente.

Sin embargo, la pregunta sigue siendo: si la IA puede generar comentarios útiles, ¿por qué deberíamos prohibir las reseñas generadas íntegramente por IA? El economista Alex Imas, de la Universidad de Chicago, articula la cuestión fundamental en un tuit reciente: la respuesta depende de si queremos que el juicio humano intervenga en la revisión científica por pares.

Tuit de Alex Imas sobre reseñas generadas por IA.

Si creemos que los modelos actuales de IA son suficientes para sustituir por completo el juicio humano, entonces las conferencias deberían simplemente automatizar todo el proceso de revisión: introducir los artículos en un LLM y asignar puntuaciones automáticamente. Pero si creemos que el juicio humano debe seguir formando parte del proceso, entonces el contenido generado íntegramente por IA debe ser sancionado. Imas identifica dos problemas clave: en primer lugar, un equilibrio de agrupación en el que el contenido generado por IA (más fácil de producir) desplazará rápidamente el juicio humano en pocos ciclos de revisión; y, en segundo lugar, un problema de verificación, ya que determinar si una revisión de IA es realmente buena requiere el mismo esfuerzo que revisar el artículo uno mismo, por lo que, si los LLM pueden generar mejores revisiones que los humanos, ¿por qué no automatizar todo el proceso?

En mi opinión, los juicios humanos son complementarios, pero aportan un valor ortogonal a las reseñas de la IA. Los seres humanos a menudo pueden aportar comentarios fuera de lo común que pueden no ser evidentes a primera vista. Las opiniones de los expertos son más útiles que los LLM porque sus opiniones están moldeadas por la experiencia, el contexto y una perspectiva que se ha ido perfeccionando y refinando con el tiempo. Los LLM son potentes, pero sus reseñas a menudo carecen de gusto y criterio, por lo que resultan «planas».

Quizás en futuras conferencias se pueda colocar la revisión del SOTA LLM junto a las revisiones humanas para garantizar que estas últimas no se limiten a repetir las críticas «obvias» que puede señalar un LLM.

Conclusión

El auge del contenido generado por IA en las revisiones académicas por pares representa un reto fundamental para la comunidad científica. Nuestro análisis muestra que las revisiones por pares generadas íntegramente por IA representan una proporción significativa del total de revisiones de la ICLR, y que el número de artículos generados por IA también está aumentando. Sin embargo, estos artículos generados por IA suelen ser más bien chapuzas que auténticas contribuciones a la investigación.

Sostenemos que esta tendencia es problemática y perjudicial para la ciencia, y hacemos un llamamiento a las conferencias y editoriales para que adopten la detección de IA como solución para disuadir el abuso y preservar la integridad científica.

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.