¡Anunciamos una nueva colaboración con Proofig! Más información
Gráfico que muestra el porcentaje de resúmenes generados por IA enviados a ICLR por año, revelando una tendencia al alza desde 2023.
En febrero de 2024, un artículo publicado en Frontiers in Cell and Developmental Biology incluía figuras que eran obviamente generadas por IA. Este artículo en particular fue noticia porque una de las imágenes mostraba una rata con testículos absurdamente grandes y un texto sin sentido que no tenía ningún sentido.
Este es un artículo real publicado en Frontiers in Cell and Developmental Biology. Las figuras son obviamente generadas por IA. Una de ellas muestra una rata con testículos absurdamente grandes. El texto de las figuras es incomprensible. pic.twitter.com/4Acn2YZYwM
— Cliff Swan (@cliff_swan) 15 de febrero de 2024
Si bien la revisión por pares (en teoría) debería ser suficiente para detectar casos evidentes como este, ¿qué ocurre cuando el contenido real del artículo ha sido generado por IA? Incluso los expertos tienen dificultades para distinguir entre las investigaciones generadas por IA y las escritas por humanos.
Un reciente reportaje de Nature destaca la creciente preocupación por el contenido generado por IA en los artículos académicos. El artículo analiza un estudio en el que informáticos utilizaron Claude 3.5, uno de los últimos LLM, para generar ideas de investigación y escribir artículos, que luego se presentaron a revisores científicos. A continuación, estos revisores calificaron los artículos en función de «novedad, interés, viabilidad y eficacia esperada». En promedio, se observó que los revisores puntuaron los artículos generados por IA más alto que los escritos por humanos. Esto lleva a la pregunta: ¿la IA realmente genera mejores ideas de investigación que los humanos? Aunque es tentador creer que este podría ser el caso, de los 4000 artículos generados por IA estudiados por los investigadores, solo 200 (el 5 %) contenían realmente alguna idea original: la mayoría de los artículos simplemente repetían ideas ya existentes del conjunto de entrenamiento del LLM.
En última instancia, la investigación generada por IA perjudica a la comunidad al añadir ruido y reducir la señal en el proceso de revisión por pares, por no hablar del tiempo y el esfuerzo que desperdician los revisores que se encargan de mantener los estándares de la investigación. Además, lo que es aún peor es que la investigación generada por IA a menudo parece convincente, pero en realidad, el texto producido por un modelo de lenguaje solo suena fluido y puede estar plagado de errores, alucinaciones e inconsistencias lógicas. La preocupación aquí es que incluso los revisores expertos a menudo no pueden distinguir cuándo lo que están leyendo es una alucinación del LLM.
Los organizadores de las principales conferencias sobre aprendizaje automático coinciden con nosotros: no hay lugar para los textos generados por LLM en los escritos científicos. La política oficial de la ICML (Conferencia Internacional sobre Aprendizaje Automático) es la siguiente:
Aclaración sobre la política relativa a los modelos lingüísticos de gran tamaño
Nosotros (los presidentes del programa) hemos incluido la siguiente declaración en la convocatoria de ponencias para la ICML representada por 2023:
Los artículos que incluyan texto generado a partir de un modelo lingüístico a gran escala (LLM), como ChatGPT, están prohibidos, a menos que el texto producido se presente como parte del análisis experimental del artículo.
Esta declaración ha suscitado una serie de preguntas por parte de posibles autores y ha llevado a algunos a ponerse en contacto con nosotros de forma proactiva. Agradecemos sus comentarios y opiniones, y nos gustaría aclarar con más detalle la intención que subyace a esta declaración y cómo pensamos aplicar esta política para la ICML 2023.
TLDR;
La política sobre modelos lingüísticos grandes (LLM) para ICML 2023 prohíbe el texto producido íntegramente por LLM (es decir, «generado»). Esto no prohíbe a los autores utilizar LLM para editar o pulir el texto escrito por ellos mismos. La política sobre LLM se basa en gran medida en el principio de ser conservadores con respecto a la protección contra posibles problemas derivados del uso de LLM, incluido el plagio.
A pesar de esta advertencia, observamos que un número significativo y creciente de autores en el campo del aprendizaje automático están infringiendo la política y utilizando la IA para generar texto en sus artículos de todos modos.
En Pangram, queríamos medir el alcance de este problema en nuestro propio campo: la inteligencia artificial. Nos propusimos responder a la pregunta: ¿están los investigadores de IA utilizando ChatGPT para escribir sus propias investigaciones?
Para estudiar este problema, utilizamos la API de OpenReview para extraer las ponencias presentadas entre 2018 y 2024 en dos de las conferencias más importantes sobre IA: ICLR y NeurIPS.
A continuación, ejecutamos el detector de IA de Pangram en todos los resúmenes enviados a estas conferencias. Estos son nuestros hallazgos:
Gráfico que muestra el porcentaje de resúmenes generados por IA enviados a ICLR por año, revelando una tendencia al alza desde 2023.
Gráfico que muestra el porcentaje de resúmenes generados por IA enviados a Neurips por año, revelando una tendencia al alza desde 2023.
Podemos considerar todo lo anterior a 2022 como un conjunto de validación de la tasa de falsos positivos de nuestro modelo, ya que en aquel entonces no existían los modelos de lenguaje grandes. Como se muestra en las figuras, prevemos que nuestro modelo predirá que todos los resúmenes de conferencias de 2022 o anteriores han sido escritos por humanos. Esto debería inspirar confianza en la precisión de nuestro modelo: nuestra tasa de falsos positivos es muy buena en los resúmenes científicos, por lo que podemos estar seguros de que todas las predicciones positivas realizadas en 2023 y 2024 son verdaderos positivos.
Lo que vemos desde entonces es muy preocupante. Ha habido tres ciclos de conferencias desde que se lanzó ChatGPT en noviembre de 2022.
El primer ciclo tuvo lugar justo en torno al lanzamiento de ChatGPT (ICLR 2023). La fecha límite para el envío de propuestas era anterior al lanzamiento de ChatGPT, pero los autores tenían la oportunidad de realizar modificaciones antes de la conferencia, que se celebró un par de meses después del lanzamiento de ChatGPT. Lo que hemos descubierto es lo que cabía esperar: solo unos pocos resúmenes han sido redactados por IA (solo hemos encontrado dos de varios miles redactados por IA en este ciclo) y es probable que se modificaran después de la fecha límite.
El segundo ciclo tuvo lugar unos seis meses después, en NeuRIPS 2023, cuyo plazo de presentación finalizó en el verano de 2023 para una conferencia celebrada en diciembre. En esta conferencia, informamos de que alrededor del 1,3 % de los resúmenes presentados fueron generados por IA: una proporción pequeña, pero significativa.
Por último, en el ciclo más reciente, ICLR 2024, que tuvo lugar hace solo unos meses, observamos un aumento hasta el 4,9 %: ¡un crecimiento casi cuatro veces mayor en las reseñas generadas por IA con respecto a NeuRIPS 2023!
Estos resultados ponen de manifiesto una tendencia preocupante: no solo está aumentando el número de artículos generados por IA que se envían a las principales conferencias sobre IA, sino que además este número está creciendo a un ritmo cada vez mayor; en otras palabras, se está acelerando el ritmo al que se envían los artículos generados por IA.
Echa un vistazo a algunos de estos resúmenes y comprueba por ti mismo si te parecen del tipo de texto que estás acostumbrado a leer en la literatura científica técnica:
En el complejo panorama de los datos en red, comprender los efectos causales de las intervenciones es un reto fundamental con implicaciones en diversos ámbitos. Las redes neuronales gráficas (GNN) se han convertido en una potente herramienta para capturar dependencias complejas, pero el potencial del aprendizaje profundo geométrico para la inferencia causal de redes basadas en GNN sigue sin explorarse suficientemente. Este trabajo aporta tres contribuciones clave para salvar esta brecha. En primer lugar, establecemos una conexión teórica entre la curvatura de los grafos y la inferencia causal, revelando que las curvaturas negativas plantean retos a la hora de identificar los efectos causales. En segundo lugar, basándonos en esta idea teórica, presentamos resultados computacionales que utilizan la curvatura de Ricci para predecir la fiabilidad de las estimaciones de los efectos causales, demostrando empíricamente que las regiones de curvatura positiva producen estimaciones más precisas. Por último, proponemos un método que utiliza el flujo de Ricci para mejorar la estimación del efecto del tratamiento en datos en red, mostrando un rendimiento superior al reducir el error mediante el aplanamiento de los bordes de la red. Nuestros hallazgos abren nuevas vías para aprovechar la geometría en la estimación del efecto causal, ofreciendo conocimientos y herramientas que mejoran el rendimiento de las GNN en tareas de inferencia causal.
En el ámbito de los modelos lingüísticos, la codificación de datos es fundamental, ya que influye en la eficiencia y la eficacia del entrenamiento de los modelos. La codificación por pares de bytes (BPE) es una técnica de tokenización de subpalabras bien establecida que equilibra la eficiencia computacional y la expresividad lingüística mediante la fusión de pares de bytes o caracteres frecuentes. Dado que el entrenamiento de modelos lingüísticos requiere importantes recursos computacionales, proponemos Fusion Token, un método que mejora sustancialmente el enfoque convencional de codificación por pares de bytes (BPE) en la codificación de datos para modelos lingüísticos. Fusion Token emplea una estrategia computacional más agresiva en comparación con BPE, ampliando los grupos de tokens de bigramas a decagramas. Cabe destacar que, con la adición de 1024 tokens al vocabulario, la tasa de compresión supera significativamente la de un tokenizador BPE normal con un vocabulario de un millón. En general, el método Fusion Token conduce a notables mejoras de rendimiento debido al aumento del alcance de los datos por unidad de cálculo. Además, una mayor compresión da lugar a tiempos de inferencia más rápidos debido al menor número de tokens por cadena dada. Al dedicar más recursos de cálculo al proceso de creación del tokenizador, Fusion Token maximiza el potencial de los modelos lingüísticos como motores eficientes de compresión de datos, lo que permite sistemas de modelado lingüístico más eficaces.
En el ámbito de la generación de movimiento, que avanza rápidamente, se ha reconocido que mejorar la semántica textual es una estrategia muy prometedora para producir movimientos más precisos y realistas. Sin embargo, las técnicas actuales suelen depender de modelos lingüísticos extensos para refinar las descripciones textuales, sin garantizar una alineación precisa entre los datos textuales y los de movimiento. Esta desalineación suele dar lugar a una generación de movimiento subóptima, lo que limita el potencial de estos métodos. Para abordar este problema, presentamos un nuevo marco denominado SemanticBoost, cuyo objetivo es salvar la brecha entre los datos textuales y los de movimiento. Nuestra innovadora solución integra información semántica complementaria derivada de los propios datos de movimiento, junto con una red dedicada a la eliminación de ruido, para garantizar la coherencia semántica y elevar la calidad general de la generación de movimiento. A través de extensos experimentos y evaluaciones, demostramos que SemanticBoost supera significativamente a los métodos existentes en términos de calidad de movimiento, alineación y realismo. Además, nuestros hallazgos enfatizan el potencial de aprovechar las señales semánticas de los datos de movimiento, lo que abre nuevas vías para una generación de movimiento más intuitiva y diversa.
¿Notas algún patrón? En primer lugar, vemos que todos comienzan con frases muy similares: «En el complejo panorama de», «En el ámbito de», «En el campo en rápido avance de». A esto lo llamamos lenguaje artificialmente florido. Ya hemos escrito anteriormente sobre la frecuencia con la que los LLM utilizan muchas palabras para producir muy poco contenido real. Si bien esto puede ser deseable para un estudiante que intenta alcanzar un número mínimo de palabras en una tarea, para un lector técnico que intenta consumir investigación, este tipo de lenguaje excesivamente prolijo hace que el artículo sea más difícil y lento de leer, al tiempo que hace que el mensaje real del artículo sea menos claro.
Nos preguntamos si los artículos generados por IA se filtran eficazmente mediante el proceso de revisión por pares o si algunos de ellos se cuelan entre las rendijas.
Para responder a esta pregunta, analizamos la correlación entre los resúmenes generados por IA y las decisiones sobre los artículos en ICLR 2024. (Los artículos orales, destacados y pósteres son todos artículos «aceptados»; los artículos orales y destacados son categorías de reconocimiento especial). Esto es lo que descubrimos:
| Categoría | Porcentaje generado por IA |
|---|---|
| ICLR 2024 oral | 2.33% |
| Póster de ICLR 2024 | 2.71% |
| ICLR 2024 en primer plano | 1.36% |
| Rechazado | 5.42% |
Aunque el porcentaje de artículos generados por IA que fueron aceptados es inferior al porcentaje de los enviados, un número significativo superó el proceso de revisión por pares. Esto implica que, si bien los revisores pueden detectar algunos contenidos generados por IA, no detectan todos.
¡Hemos observado que incluso algunas ponencias orales y artículos destacados tienen resúmenes generados por IA! Interpretando la situación de forma benévola, lo que podemos encontrar en el futuro es que la investigación puede ser realmente de alta calidad y que los autores simplemente están tomando atajos con ChatGPT para ayudarles a presentar o revisar mejor el trabajo.
Cabe destacar que, dado que gran parte de la comunidad investigadora no es angloparlante, el uso de los LLM se extenderá cada vez más a la traducción al inglés de artículos escritos en otros idiomas.
A pesar de la petición explícita de la comunidad de IA a los autores de no utilizar ChatGPT, muchos autores están ignorando la política y utilizando LLM para ayudarles a escribir sus artículos de todos modos. Lo que es más preocupante, incluso los expertos en IA, que actúan como revisores para proteger las conferencias contra los artículos generados por LLM, ¡no son capaces de detectarlos!
ChatGPT está teniendo aún más repercusiones en todo el proceso académico. Un estudio de caso reciente de ICML reveló que entre el 6 y el 16 % de las revisiones por pares fueron generadas por IA, y que existe una correlación positiva entre las revisiones por pares generadas por IA y la proximidad de la fecha límite de entrega de la revisión.
Hacemos un llamamiento a la comunidad de IA para que aplique mejor estas políticas y a los autores para que asuman la responsabilidad de garantizar que sus artículos sean generados por humanos.
