¡Anunciamos una nueva colaboración con Proofig! Más información

Las noticias son una industria de 150 000 millones de dólares que emplea a miles de reporteros y periodistas para escribir artículos que reciben miles de millones de visitas. Con la IA y el auge de los grandes modelos lingüísticos, muchos sitios web de noticias de baja calidad y algunos malos actores han recurrido a la IA para generar contenido de forma barata, rápida y a gran escala. Dado que la IA no puede desempeñar el papel de un periodista, estos sitios web de noticias se limitan a repetir la información de su formación o a robar y reformular los artículos de otros medios.
También se ha demostrado que el contenido no auténtico es menos atractivo y menos visitado por los usuarios de Internet. En una entrada reciente del blog, citamos una investigación realizada por NP Digital que concluyó de manera contundente que los lectores en línea preferían y daban prioridad a los artículos generados por personas. En concreto:
Estas publicaciones de IA existen principalmente para desviar el tráfico y los ingresos publicitarios potenciales de los contenidos informativos auténticos, y forman parte de una operación de cultivo de contenidos en expansión que el año pasado, en 2023, capturó el 21 % de las impresiones publicitarias y más de 10 000 millones de dólares.
Conscientes de la amenaza y los posibles daños que conlleva este aumento de noticias falsas, queríamos cuantificar la magnitud real del problema. Colaboramos con NewsCatcher para clasificar una muestra de noticias publicadas a nivel mundial en un día determinado.
Comenzamos recopilando primero todas las noticias del mundo publicadas el 1 de julio de 2024.
La API de NewsCatcher es la fuente más completa de artículos de noticias globales publicados diariamente, con más de 75 000 fuentes y prestando servicio a grandes organizaciones empresariales. Su tecnología nos permitió consultar el texto completo de artículos publicados en todo el mundo, escritos en diferentes idiomas y que abarcan una amplia gama de temas.
Con NewsCatcher, recopilamos todas las noticias publicadas en un día; a partir de este volcado de datos, analizamos 857 434 artículos recopilados de 26 675 editores en línea, que consideraremos un conjunto representativo de las noticias diarias publicadas.
Después de recopilar los artículos, ejecutamos nuestro clasificador Pangram Text para determinar cuáles habían sido generados por IA. Pangram Text es líder del sector en precisión de clasificación (más de 30 veces más preciso que la siguiente solución comercial líder), con un firme compromiso con una baja incidencia de falsos positivos. En nuestro informe técnico, mostramos que nuestra tasa de falsos positivos en las noticias es solo del 0,001 %, lo que nos permite estar seguros cuando predicimos que una noticia es realmente generada por IA. Nuestra solución suele tomar un documento o un fragmento de texto y devuelve una predicción de la probabilidad de que haya sido generado por un LLM. En el caso de una página web, tendríamos que realizar un posprocesamiento y una limpieza del contenido de la página para aislar solo el texto del artículo, pero utilizando la solución NewsCatcher pudimos extraer el texto limpio directamente y ejecutar la inferencia con nuestro clasificador de texto.
Distribución de nuestras predicciones en una escala logarítmica. Utilizamos una escala logarítmica para mostrar que las predicciones cercanas a 0 o 1 son entre 100 y 1000 veces más comunes que las predicciones en el centro del espectro.
A continuación, clasificamos a los editores según el total de sus artículos y los agrupamos según el desglose de su contenido total sobre IA. El marco de agrupación es el siguiente:
Del total de artículos analizados, encontramos que:
Se clasificaron 59 653 artículos como IA, lo que representa el 6,96 % del conjunto de artículos.
Editores organizados según la cantidad de contenido sobre IA que publican.
A continuación, analizamos las clasificaciones de la IA en función de características clave, como el idioma en el que estaba escrito el artículo, el país en el que se había publicado y el tema que trataba, así como su relevancia política especial.
Gráfico de artículos sobre IA producidos por país (porcentaje del total de artículos periodísticos escritos por país)
En general, observamos que Ghana es un caso bastante atípico en lo que respecta al contenido generado por IA. Aunque la frecuencia general es menor, la India también es un importante editor de contenido generado por IA, lo que no debería sorprender, dado que... Impacto de los deepfakes en las recientes elecciones indias.
Gráfico de artículos sobre IA producidos por tema (porcentaje del total de artículos periodísticos escritos sobre cada tema)
Observamos que la belleza (artículos patrocinados), la tecnología y los negocios (estafas con criptomonedas) son temas especialmente importantes sobre los que se escriben artículos de IA. Sorprendentemente, la política tiende a estar por debajo de la media en lo que respecta a los artículos de IA: creemos que esto se debe a que los anunciantes tienden a evitar los sitios web de noticias políticas debido a los riesgos para la seguridad de la marca, lo que reduce el incentivo de los editores para producir contenido político destinado a la publicidad.
Identificamos varias categorías de artículos periodísticos sobre IA: sitios web creados con fines publicitarios (MFA), artículos patrocinados, fraude y desinformación.
Un sitio cuyo único propósito es mostrar anuncios en lugar de ofrecer contenido legítimo es un «MFA», es decir, un sitio creado para publicidad. A continuación se muestra un ejemplo de MFA:

Sitio web creado para publicidad y repleto de anuncios.
Como podemos ver, en la parte superior de la página web no hay ningún contenido real aparte del título, y hay ocho anuncios publicitarios que reclaman la atención del usuario. El contenido de IA que aparece debajo no está pensado para ser leído: solo está ahí para atraer visitantes al sitio y obtener ingresos publicitarios antes de que los usuarios abandonen la página, como suele ocurrir. A menudo, los anunciantes ni siquiera son conscientes de que están anunciándose en estos sitios: la naturaleza programática de la publicidad digital significa que las pujas por este espacio publicitario se compran y venden en milésimas de segundo utilizando algoritmos de puja automatizados. Empresas como Jounce Media ayudan a los anunciantes a evitar malgastar su presupuesto en sitios como este y forman parte de un grupo de empresas denominado «optimizadores de la cadena de suministro».
Jounce define tres características clave de un MFA:
En resumen, los MFA roban tráfico publicitario de sitios con contenido legítimo para ofrecer espacios publicitarios a bajo precio. Proporcionan métricas vanidosas a las campañas publicitarias programáticas, sin ofrecer realmente ningún contenido útil ni ningún retorno de la inversión real para los anunciantes. Contaminan Internet y crean una experiencia de usuario hostil para el consumidor medio de Internet.
Aunque no existe una métrica concreta que defina lo que es un MFA, estimamos que los MFA constituyen aproximadamente el 50 % del contenido generado por IA en Internet.
Algunas noticias en Internet pueden comprarse como medio para publicitar un producto, haciéndose pasar por contenido real escrito por un influencer o una publicación de reseñas legítima. Observamos que la belleza era uno de los temas con mayor frecuencia de contenido generado por IA. Cuando analizamos los datos, descubrimos que gran parte de los artículos de «noticias» sobre el tema de la belleza son simplemente artículos patrocinados como este:

La IA escribió este contenido patrocinado de baja calidad.
Muchos redactores publicitarios están recurriendo al uso de la inteligencia artificial para escribir estos artículos patrocinados de baja calidad, ya que el objetivo es simplemente vender el espacio publicitario, en lugar de generar una reseña auténtica.
Los estafadores de criptomonedas utilizan la inteligencia artificial para generar contenido a gran velocidad.
También observamos muchas campañas fraudulentas comunes y corrientes generadas con IA. En particular, las estafas con criptomonedas parecen ser muy habituales, e incluso se promocionan en sitios web de renombre como Medium.
Un sitio web de desinformación repleto de contenido generado por IA.
Aunque observamos que el uso de la IA suele ser menos frecuente en las noticias políticas (en gran parte debido a que muchos anunciantes tienden a evitar las noticias políticas por el riesgo que supone para la seguridad de la marca), la IA es un componente cada vez más importante de las campañas de desinformación. Newsguard cuenta con un centro de seguimiento de IA que realiza un seguimiento detallado y actualizado de la desinformación facilitada por la IA.
A diferencia de otras formas de engaño en las que vemos a personas malintencionadas utilizando la IA, el objetivo de estos artículos es, en realidad, conseguir que la gente lea el contenido. Por lo general, el propósito de estas campañas es cambiar la opinión o el sentimiento público sobre un tema concreto.
A medida que se acercan las elecciones estadounidenses de noviembre, solo podemos esperar que este tipo de abuso de la IA continúe.
¿Quieres saber más sobre nuestro mapa de contenido de IA en la web o nuestra lista de bloqueo de IA para anunciantes? ¡Ponte en contacto con nosotros en info@pangram.com!
