Anunciamos uma nova parceria com a Proofig! Saiba mais

60.000 artigos de notícias gerados por IA são publicados todos os dias

Bradley Emi
5 de agosto de 2024

Visão geral

O setor de notícias movimenta US$ 150 bilhões e emprega milhares de repórteres e jornalistas para escrever artigos que recebem bilhões de visualizações. Com a IA e o surgimento de grandes modelos de linguagem, muitos sites de notícias de baixa qualidade e alguns agentes mal-intencionados passaram a recorrer à IA para gerar conteúdo de forma barata, rápida e em grande escala. Como a IA não pode substituir o papel do jornalista, esses sites de notícias se limitam a repetir informações de seu treinamento ou a roubar e reformular artigos de outros veículos.

Também ficou comprovado que o conteúdo não autêntico é menos desejável e menos visitado pelos internautas. Numa publicação recente no blogue, citámos uma pesquisa realizada pela NP Digital que concluiu categoricamente que os leitores online preferem e dão prioridade a artigos escritos por pessoas. Especificamente:

  • Os leitores passaram 93% mais tempo em páginas com conteúdo escrito por humanos do que em páginas com conteúdo gerado exclusivamente por IA.
  • Os leitores eram, em média, 3,6 vezes mais propensos a visitar artigos escritos por humanos do que aqueles gerados por IA.

Essas publicações de IA existem principalmente para desviar tráfego e receita publicitária potencial de conteúdos noticiosos autênticos, e fazem parte de uma operação crescente de produção de conteúdo que capturou 21% das impressões publicitárias e mais de US$ 10 bilhões no ano passado, em 2023.

Cientes da ameaça e dos danos potenciais causados pelo aumento das notícias falsas, queríamos quantificar a real dimensão deste problema. Colaborámos com a NewsCatcher para classificar uma amostra de notícias publicadas globalmente num determinado dia.

Configuração da experiência

Começámos por compilar uma coleção de todas as notícias do mundo publicadas em 1 de julho de 2024.

A API da NewsCatcher é a fonte mais completa de artigos de notícias globais publicados diariamente, com mais de 75.000 fontes e atendendo a grandes organizações empresariais. A tecnologia deles nos permitiu consultar o texto completo de artigos publicados em todo o mundo, escritos em diferentes idiomas e cobrindo uma ampla variedade de tópicos.

Usando o NewsCatcher, recolhemos todas as notícias publicadas num dia; a partir desse conjunto de dados, analisámos 857 434 artigos recolhidos de 26 675 editores online, que consideramos um conjunto representativo das notícias diárias publicadas.

Abordagem de detecção

Após obter os artigos, executámos o nosso classificador Pangram Text para determinar quais artigos foram gerados por IA. O Pangram Text é líder do setor em precisão de classificação (mais de 30 vezes mais preciso do que a segunda solução comercial mais avançada), com um forte compromisso com a baixa incidência de falsos positivos. No nosso relatório técnico, mostramos que a nossa taxa de falsos positivos em notícias é de apenas 0,001%, o que nos permite ter confiança quando prevemos que uma notícia é realmente gerada por IA. A nossa solução normalmente recebe um documento ou um trecho de texto e retorna uma previsão da probabilidade de que ele tenha sido gerado por um LLM. Para uma página da web, teríamos que fazer algum pós-processamento e limpeza do conteúdo da página para isolar apenas o texto do artigo, mas usando a solução NewsCatcher, conseguimos extrair o texto limpo diretamente e executar a inferência com o nosso classificador de texto.

Distribuição das nossas previsões numa escala logarítmica. Utilizamos uma escala logarítmica para mostrar que as previsões próximas de 0 ou 1 são 100 a 1000 vezes mais comuns do que as previsões no meio do espectro.

Em seguida, categorizámos os editores como um agregado de cada um dos seus artigos totais e agrupámo-los por uma divisão do seu conteúdo total sobre IA. A estrutura de agrupamento é a seguinte:

  • Se um editor tivesse menos de 10% dos seus artigos rotulados como IA, esse editor seria considerado um editor humano.
  • Se uma editora tivesse entre 10% e 50% dos seus artigos rotulados como IA, essa editora seria considerada uma editora menor de IA.
  • Se uma editora tivesse entre 50% e 80% dos seus artigos rotulados como IA, essa editora seria considerada uma grande editora de IA.
  • Se uma editora tivesse mais de 80% dos seus artigos rotulados como IA, essa editora seria considerada uma editora totalmente gerada por IA.

Estatísticas agregadas

Do total de artigos analisados, constatámos que:

59.653 artigos foram classificados como IA, representando 6,96% do conjunto de artigos.

A divisão dos editores online

Editores organizados de acordo com a quantidade de conteúdo sobre IA que publicam Em seguida, analisámos as classificações da IA em relação a características-chave, incluindo o idioma em que o artigo foi escrito, o país onde foi publicado, o tema abordado e a relevância política especial.

Países com maior frequência de artigos sobre IA (mínimo de 100 artigos)

Gráfico de artigos sobre IA produzidos por país (percentagem do total de artigos noticiosos escritos por país) Notamos, em geral, que Gana é um caso bastante atípico em termos de conteúdo gerado por IA. Embora a frequência geral seja menor, a Índia também é uma grande editora de conteúdo gerado por IA, o que não deve ser surpreendente, dado o impacto das deepfakes nas recentes eleições indianas.

Frequência de IA por tópico

Gráfico de artigos sobre IA produzidos por tópico (percentagem do total de artigos de notícias escritos sobre cada tópico)

Notamos que beleza (artigos patrocinados), tecnologia e negócios (golpes com criptomoedas) são temas especialmente importantes sobre os quais as pessoas escrevem artigos de IA. De forma um tanto surpreendente, a política tende a ficar abaixo da média quando se trata de artigos de IA: acreditamos que isso se deve ao facto de os anunciantes tenderem a evitar sites de notícias políticas devido aos riscos à segurança da marca, diminuindo o incentivo para que os editores produzam conteúdo político feito para publicidade.

Como são as «notícias» da IA?

Identificamos várias categorias de artigos de notícias sobre IA: sites criados para publicidade (MFAs), artigos patrocinados, fraude e desinformação.

Feito para publicidade

Um site cujo único objetivo é veicular anúncios, em vez de fornecer conteúdo legítimo, é chamado de «MFA» — um site criado para publicidade. Aqui está um exemplo de um MFA:

Site feito para publicidade, cheio de anúncios

Como podemos ver, acima da dobra do site, não há conteúdo real além do título, e há 8 anúncios gráficos clamando pela atenção do utilizador. O conteúdo de IA abaixo não se destina realmente a ser lido: ele está lá apenas para atrair visitantes ao site para absorver a receita publicitária antes que os utilizadores normalmente saiam imediatamente. Muitas vezes, os anunciantes nem sequer sabem que estão a anunciar nesses sites: a natureza programática da publicidade digital significa que as licitações para esse espaço publicitário são compradas e vendidas em milésimos de segundos, usando algoritmos de licitação automatizados. Empresas como a Jounce Media ajudam os anunciantes a evitar desperdiçar o seu orçamento em sites como esse e fazem parte de um grupo de empresas chamado “Supply Chain Optimizers” (Otimizadores da Cadeia de Suprimentos).

A Jounce define três características principais de uma MFA:

  1. Tráfego pago: sites que têm pouca ou nenhuma audiência orgânica e dependem de visitas provenientes de anúncios clickbait de outros sites.
  2. Monetização agressiva: por meio de alta carga de anúncios e posicionamentos com atualização automática rápida, esses editores capturam uma oportunidade de arbitragem por meio dos mercados de licitação, mas ao custo de uma experiência hostil para o utilizador.
  3. KPIs superficiais: esses sites têm pontuação alta em métricas de vaidade, como visibilidade e taxas de conclusão de vídeos, mas a pesquisa da Jounce mostra que os anúncios em MFAs não afetam realmente as decisões de compra dos consumidores.

Em resumo, os MFAs roubam tráfego publicitário de sites com conteúdo legítimo, a fim de oferecer espaço publicitário a preços baixos. Eles fornecem métricas irrelevantes para campanhas publicitárias programáticas, sem realmente oferecer qualquer conteúdo útil ou ROI real para os anunciantes. Eles poluem a internet e criam uma experiência hostil para o consumidor médio da internet.

Embora não exista uma métrica concreta sobre o que define uma MFA, estimamos que as MFAs representam cerca de 50% do conteúdo gerado por IA online.

Conteúdo pago/patrocinado

Algumas notícias na Internet podem ser compradas como forma de publicidade de um produto, mas disfarçadas como conteúdo real escrito por um influenciador ou publicação de crítica legítima. Percebemos que beleza era um dos tópicos com maior frequência de conteúdo gerado por IA. Quando analisámos os dados, descobrimos que grande parte das «notícias» sobre beleza eram simplesmente artigos patrocinados como este:

A IA escreveu este conteúdo patrocinado de baixa qualidade.

Muitos redatores estão simplesmente recorrendo ao uso de IA para escrever esses artigos patrocinados de baixa qualidade, porque o objetivo é simplesmente vender o espaço, em vez de gerar uma avaliação autêntica.

Golpes

Os burlões de criptomoedas utilizam IA para produzir conteúdo a alta velocidade

Também observamos muitas campanhas fraudulentas comuns geradas com IA. Em particular, os golpes com criptomoedas parecem ser muito comuns e são até mesmo promovidos em sites conceituados, como o Medium.

Desinformação

Um site de desinformação repleto de conteúdo gerado por IA

Embora consideremos que o uso da IA seja normalmente menos prevalente nas notícias políticas (em grande parte devido ao facto de muitos anunciantes tenderem a evitar notícias políticas devido ao risco à segurança da marca), a IA é um componente crescente das campanhas de desinformação. A Newsguard possui um centro de rastreamento de IA que oferece um rastreamento detalhado e atualizado da desinformação habilitada por IA.

Ao contrário de outras formas de engano em que vemos pessoas mal-intencionadas a usar IA, o objetivo desses artigos é, na verdade, fazer com que as pessoas leiam o conteúdo. Normalmente, o objetivo dessas campanhas é mudar a opinião pública sobre um determinado assunto.

Com a aproximação das eleições nos EUA em novembro, só podemos esperar que esse tipo de abuso da IA continue.

Resumo

  • Cerca de 7% das notícias diárias mundiais em julho de 2024 provavelmente serão geradas por IA.
  • A África Ocidental e o Sul da Ásia são exceções quando se trata da quantidade de conteúdo publicado sobre IA.
  • Beleza, tecnologia e negócios têm a maior proporção de conteúdo sobre IA, enquanto política e opinião têm a menor.
  • O conteúdo de IA é geralmente associado a algum tipo de intenção maliciosa ou comportamento enganoso. Os MFAs tentam enganar os anunciantes, levando-os a acreditar que um espaço publicitário de baixa qualidade é, na verdade, premium. O conteúdo patrocinado não é necessariamente enganoso, mas também não é genuinamente autêntico e não pode ser confundido com uma avaliação real de um consumidor. Os golpes e a desinformação ameaçam genuinamente os utilizadores da Internet, e os danos potenciais que esses sites causam são óbvios.

Quer saber mais sobre o nosso mapa de conteúdo de IA na web ou a nossa lista de bloqueio de IA para anunciantes? Entre em contacto através do e-mail info@pangram.com!

Inscreva-se na nossa newsletter
Partilhamos atualizações mensais sobre a nossa investigação em deteção de IA.