¡Anunciamos una nueva colaboración con Proofig! Más información

Cada día se publican 60 000 artículos de noticias generados por IA.

Bradley Emi
5 de agosto de 2024

Resumen general

Las noticias son una industria de 150 000 millones de dólares que emplea a miles de reporteros y periodistas para escribir artículos que reciben miles de millones de visitas. Con la IA y el auge de los grandes modelos lingüísticos, muchos sitios web de noticias de baja calidad y algunos malos actores han recurrido a la IA para generar contenido de forma barata, rápida y a gran escala. Dado que la IA no puede desempeñar el papel de un periodista, estos sitios web de noticias se limitan a repetir la información de su formación o a robar y reformular los artículos de otros medios.

También se ha demostrado que el contenido no auténtico es menos atractivo y menos visitado por los usuarios de Internet. En una entrada reciente del blog, citamos una investigación realizada por NP Digital que concluyó de manera contundente que los lectores en línea preferían y daban prioridad a los artículos generados por personas. En concreto:

  • Los lectores pasaron un 93 % más de tiempo en páginas con contenido escrito por humanos que en páginas con contenido generado exclusivamente por IA.
  • Los lectores eran, en promedio, 3,6 veces más propensos a visitar artículos escritos por humanos que aquellos generados por IA.

Estas publicaciones de IA existen principalmente para desviar el tráfico y los ingresos publicitarios potenciales de los contenidos informativos auténticos, y forman parte de una operación de cultivo de contenidos en expansión que el año pasado, en 2023, capturó el 21 % de las impresiones publicitarias y más de 10 000 millones de dólares.

Conscientes de la amenaza y los posibles daños que conlleva este aumento de noticias falsas, queríamos cuantificar la magnitud real del problema. Colaboramos con NewsCatcher para clasificar una muestra de noticias publicadas a nivel mundial en un día determinado.

Configuración del experimento

Comenzamos recopilando primero todas las noticias del mundo publicadas el 1 de julio de 2024.

La API de NewsCatcher es la fuente más completa de artículos de noticias globales publicados diariamente, con más de 75 000 fuentes y prestando servicio a grandes organizaciones empresariales. Su tecnología nos permitió consultar el texto completo de artículos publicados en todo el mundo, escritos en diferentes idiomas y que abarcan una amplia gama de temas.

Con NewsCatcher, recopilamos todas las noticias publicadas en un día; a partir de este volcado de datos, analizamos 857 434 artículos recopilados de 26 675 editores en línea, que consideraremos un conjunto representativo de las noticias diarias publicadas.

Enfoque de detección

Después de recopilar los artículos, ejecutamos nuestro clasificador Pangram Text para determinar cuáles habían sido generados por IA. Pangram Text es líder del sector en precisión de clasificación (más de 30 veces más preciso que la siguiente solución comercial líder), con un firme compromiso con una baja incidencia de falsos positivos. En nuestro informe técnico, mostramos que nuestra tasa de falsos positivos en las noticias es solo del 0,001 %, lo que nos permite estar seguros cuando predicimos que una noticia es realmente generada por IA. Nuestra solución suele tomar un documento o un fragmento de texto y devuelve una predicción de la probabilidad de que haya sido generado por un LLM. En el caso de una página web, tendríamos que realizar un posprocesamiento y una limpieza del contenido de la página para aislar solo el texto del artículo, pero utilizando la solución NewsCatcher pudimos extraer el texto limpio directamente y ejecutar la inferencia con nuestro clasificador de texto.

Distribución de nuestras predicciones en una escala logarítmica. Utilizamos una escala logarítmica para mostrar que las predicciones cercanas a 0 o 1 son entre 100 y 1000 veces más comunes que las predicciones en el centro del espectro.

A continuación, clasificamos a los editores según el total de sus artículos y los agrupamos según el desglose de su contenido total sobre IA. El marco de agrupación es el siguiente:

  • Si un editor tuviera menos del 10 % de sus artículos etiquetados como IA, ese editor se consideraría un editor humano.
  • Si un editor tuviera entre el 10 % y el 50 % de sus artículos etiquetados como IA, ese editor se consideraría un editor menor de IA.
  • Si un editor tuviera entre el 50 % y el 80 % de sus artículos etiquetados como IA, ese editor se consideraría un editor importante de IA.
  • Si más del 80 % de los artículos de un editor estuvieran etiquetados como IA, ese editor se consideraría un editor generado íntegramente por IA.

Estadísticas agregadas

Del total de artículos analizados, encontramos que:

Se clasificaron 59 653 artículos como IA, lo que representa el 6,96 % del conjunto de artículos.

El desglose de los editores en línea

Editores organizados según la cantidad de contenido sobre IA que publican. A continuación, analizamos las clasificaciones de la IA en función de características clave, como el idioma en el que estaba escrito el artículo, el país en el que se había publicado y el tema que trataba, así como su relevancia política especial.

Países con mayor frecuencia de artículos sobre IA (mínimo 100 artículos)

Gráfico de artículos sobre IA producidos por país (porcentaje del total de artículos periodísticos escritos por país) En general, observamos que Ghana es un caso bastante atípico en lo que respecta al contenido generado por IA. Aunque la frecuencia general es menor, la India también es un importante editor de contenido generado por IA, lo que no debería sorprender, dado que... Impacto de los deepfakes en las recientes elecciones indias.

Frecuencia de IA por tema

Gráfico de artículos sobre IA producidos por tema (porcentaje del total de artículos periodísticos escritos sobre cada tema)

Observamos que la belleza (artículos patrocinados), la tecnología y los negocios (estafas con criptomonedas) son temas especialmente importantes sobre los que se escriben artículos de IA. Sorprendentemente, la política tiende a estar por debajo de la media en lo que respecta a los artículos de IA: creemos que esto se debe a que los anunciantes tienden a evitar los sitios web de noticias políticas debido a los riesgos para la seguridad de la marca, lo que reduce el incentivo de los editores para producir contenido político destinado a la publicidad.

¿Cómo son las «noticias» de IA?

Identificamos varias categorías de artículos periodísticos sobre IA: sitios web creados con fines publicitarios (MFA), artículos patrocinados, fraude y desinformación.

Hecho para publicidad

Un sitio cuyo único propósito es mostrar anuncios en lugar de ofrecer contenido legítimo es un «MFA», es decir, un sitio creado para publicidad. A continuación se muestra un ejemplo de MFA:

Sitio web creado para publicidad y repleto de anuncios.

Como podemos ver, en la parte superior de la página web no hay ningún contenido real aparte del título, y hay ocho anuncios publicitarios que reclaman la atención del usuario. El contenido de IA que aparece debajo no está pensado para ser leído: solo está ahí para atraer visitantes al sitio y obtener ingresos publicitarios antes de que los usuarios abandonen la página, como suele ocurrir. A menudo, los anunciantes ni siquiera son conscientes de que están anunciándose en estos sitios: la naturaleza programática de la publicidad digital significa que las pujas por este espacio publicitario se compran y venden en milésimas de segundo utilizando algoritmos de puja automatizados. Empresas como Jounce Media ayudan a los anunciantes a evitar malgastar su presupuesto en sitios como este y forman parte de un grupo de empresas denominado «optimizadores de la cadena de suministro».

Jounce define tres características clave de un MFA:

  1. Tráfico pagado: sitios que tienen poca o ninguna audiencia orgánica y dependen de las visitas procedentes de anuncios clickbait de otros sitios.
  2. Monetización agresiva: mediante una elevada carga publicitaria y ubicaciones que se actualizan automáticamente con rapidez, estos editores aprovechan una oportunidad de arbitraje a través de los mercados de pujas, pero a costa de una experiencia de usuario hostil.
  3. KPI superficiales: estos sitios obtienen puntuaciones altas en métricas vanidosas como la visibilidad y las tasas de finalización de vídeos, pero la investigación de Jounce muestra que los anuncios en los MFA no afectan realmente a las decisiones de compra de los compradores.

En resumen, los MFA roban tráfico publicitario de sitios con contenido legítimo para ofrecer espacios publicitarios a bajo precio. Proporcionan métricas vanidosas a las campañas publicitarias programáticas, sin ofrecer realmente ningún contenido útil ni ningún retorno de la inversión real para los anunciantes. Contaminan Internet y crean una experiencia de usuario hostil para el consumidor medio de Internet.

Aunque no existe una métrica concreta que defina lo que es un MFA, estimamos que los MFA constituyen aproximadamente el 50 % del contenido generado por IA en Internet.

Contenido pagado/patrocinado

Algunas noticias en Internet pueden comprarse como medio para publicitar un producto, haciéndose pasar por contenido real escrito por un influencer o una publicación de reseñas legítima. Observamos que la belleza era uno de los temas con mayor frecuencia de contenido generado por IA. Cuando analizamos los datos, descubrimos que gran parte de los artículos de «noticias» sobre el tema de la belleza son simplemente artículos patrocinados como este:

La IA escribió este contenido patrocinado de baja calidad.

Muchos redactores publicitarios están recurriendo al uso de la inteligencia artificial para escribir estos artículos patrocinados de baja calidad, ya que el objetivo es simplemente vender el espacio publicitario, en lugar de generar una reseña auténtica.

Estafas

Los estafadores de criptomonedas utilizan la inteligencia artificial para generar contenido a gran velocidad.

También observamos muchas campañas fraudulentas comunes y corrientes generadas con IA. En particular, las estafas con criptomonedas parecen ser muy habituales, e incluso se promocionan en sitios web de renombre como Medium.

Desinformación

Un sitio web de desinformación repleto de contenido generado por IA.

Aunque observamos que el uso de la IA suele ser menos frecuente en las noticias políticas (en gran parte debido a que muchos anunciantes tienden a evitar las noticias políticas por el riesgo que supone para la seguridad de la marca), la IA es un componente cada vez más importante de las campañas de desinformación. Newsguard cuenta con un centro de seguimiento de IA que realiza un seguimiento detallado y actualizado de la desinformación facilitada por la IA.

A diferencia de otras formas de engaño en las que vemos a personas malintencionadas utilizando la IA, el objetivo de estos artículos es, en realidad, conseguir que la gente lea el contenido. Por lo general, el propósito de estas campañas es cambiar la opinión o el sentimiento público sobre un tema concreto.

A medida que se acercan las elecciones estadounidenses de noviembre, solo podemos esperar que este tipo de abuso de la IA continúe.

Resumen

  • Aproximadamente el 7 % de las noticias diarias mundiales a fecha de julio de 2024 probablemente sean generadas por IA.
  • África Occidental y Asia Meridional son casos atípicos en lo que respecta a la cantidad de contenido publicado sobre IA.
  • La belleza, la tecnología y los negocios tienen la mayor proporción de contenido relacionado con la IA, mientras que la política y la opinión tienen la menor.
  • El contenido generado por IA suele asociarse con algún tipo de mala intención o comportamiento engañoso. Las MFA intentan engañar a los anunciantes haciéndoles creer que un espacio publicitario de baja calidad es en realidad de primera calidad. El contenido patrocinado no es necesariamente engañoso, pero tampoco es auténtico y no puede confundirse con una reseña real de un consumidor. Las estafas y la desinformación suponen una amenaza real para los usuarios de Internet y el daño potencial que causan estos sitios es evidente.

¿Quieres saber más sobre nuestro mapa de contenido de IA en la web o nuestra lista de bloqueo de IA para anunciantes? ¡Ponte en contacto con nosotros en info@pangram.com!

Suscríbase a nuestro boletín informativo
Compartimos actualizaciones mensuales sobre nuestra investigación en detección de IA.