Annunciamo una nuova partnership con Proofig! Per saperne di più

Ogni giorno vengono pubblicati 60.000 articoli di cronaca generati dall'intelligenza artificiale.

Bradley Emi
5 agosto 2024

Panoramica

Il settore dell'informazione è un'industria da 150 miliardi di dollari che impiega migliaia di reporter e giornalisti per scrivere articoli che ricevono miliardi di visualizzazioni. Con l'avvento dell'intelligenza artificiale e dei modelli linguistici di grandi dimensioni, molti siti di informazione di bassa qualità e alcuni malintenzionati hanno fatto ricorso all'IA per generare contenuti in modo economico, rapido e su larga scala. Poiché l'IA non può sostituire il ruolo di un giornalista, questi siti di informazione si limitano a ripetere le informazioni apprese durante la loro formazione o a rubare e riformulare gli articoli di altre testate.

È stato inoltre dimostrato che i contenuti non autentici sono meno apprezzati e meno visitati dagli utenti online. In un recente post sul blog abbiamo citato una ricerca condotta da NP Digital che ha chiaramente dimostrato che i lettori online preferiscono e danno la priorità agli articoli scritti da esseri umani. Nello specifico:

  • I lettori hanno trascorso il 93% di tempo in più sulle pagine con contenuti scritti da esseri umani rispetto a quelle con contenuti generati esclusivamente dall'intelligenza artificiale.
  • I lettori erano in media 3,6 volte più propensi a visitare articoli scritti da esseri umani rispetto a quelli generati dall'intelligenza artificiale.

Queste pubblicazioni basate sull'intelligenza artificiale esistono principalmente per sottrarre traffico e potenziali introiti pubblicitari ai contenuti informativi autentici e fanno parte di una crescente operazione di content farming che lo scorso anno, nel 2023, ha catturato il 21% delle impressioni pubblicitarie e oltre 10 miliardi di dollari.

Consapevoli della minaccia e dei potenziali danni causati dall'aumento delle notizie non autentiche, abbiamo voluto quantificare l'effettiva portata del problema. Abbiamo collaborato con NewsCatcher per classificare un campione giornaliero di notizie pubblicate a livello globale.

Configurazione dell'esperimento

Abbiamo iniziato raccogliendo tutte le notizie pubblicate nel mondo il 1° luglio 2024.

L'API di NewsCatcher è la fonte più completa di articoli di attualità pubblicati quotidianamente a livello globale, con oltre 75.000 fonti e al servizio di grandi organizzazioni aziendali. La loro tecnologia ci ha permesso di consultare il testo completo di articoli pubblicati in tutto il mondo, scritti in diverse lingue e che coprono una vasta gamma di argomenti.

Utilizzando NewsCatcher, abbiamo raccolto tutte le notizie pubblicate in un giorno; da questo archivio di dati, abbiamo analizzato 857.434 articoli raccolti da 26.675 editori online, che considereremo come un insieme rappresentativo delle notizie quotidiane pubblicate.

Approccio di rilevamento

Dopo aver raccolto gli articoli, abbiamo eseguito il nostro classificatore Pangram Text per determinare quali articoli fossero stati generati dall'IA. Pangram Text è leader nel settore per quanto riguarda l'accuratezza della classificazione (oltre 30 volte più accurato rispetto alla seconda soluzione commerciale più diffusa), con un forte impegno a ridurre l'incidenza dei falsi positivi. Nel nostro rapporto tecnico, dimostriamo che il nostro tasso di falsi positivi sulle notizie è solo dello 0,001%, il che ci permette di essere sicuri quando prevediamo che una notizia sia stata generata dall'IA. La nostra soluzione in genere prende in input un documento o un testo e restituisce una previsione della probabilità che sia stato generato da un LLM. Per una pagina web, dovremmo eseguire alcune operazioni di post-elaborazione e pulizia del contenuto della pagina per isolare solo il testo dell'articolo, ma utilizzando la soluzione NewsCatcher siamo stati in grado di estrarre direttamente il testo pulito ed eseguire l'inferenza con il nostro classificatore di testo.

Distribuzione delle nostre previsioni su una scala logaritmica. Utilizziamo una scala logaritmica per mostrare che le previsioni vicine a 0 o 1 sono 100-1000 volte più comuni rispetto alle previsioni al centro dello spettro.

Abbiamo quindi classificato gli editori in base al numero totale dei loro articoli e li abbiamo suddivisi in categorie in base alla ripartizione dei loro contenuti totali relativi all'intelligenza artificiale. Il quadro di suddivisione è il seguente:

  • Se un editore avesse meno del 10% dei propri articoli etichettati come AI, tale editore sarebbe considerato un editore umano.
  • Se un editore avesse tra il 10% e il 50% dei propri articoli etichettati come AI, tale editore sarebbe considerato un editore AI minore.
  • Se un editore avesse tra il 50% e l'80% dei propri articoli etichettati come AI, tale editore sarebbe considerato un importante editore AI.
  • Se un editore avesse oltre l'80% dei propri articoli etichettati come AI, tale editore sarebbe considerato un editore interamente generato dall'intelligenza artificiale.

Statistiche aggregate

Sul totale degli articoli esaminati, abbiamo riscontrato che:

59.653 articoli sono stati classificati come AI, pari al 6,96% del totale degli articoli.

La ripartizione degli editori online

Editori classificati in base alla quantità di contenuti AI pubblicati Abbiamo quindi esaminato le classificazioni dell'IA in base a caratteristiche chiave quali la lingua in cui l'articolo era scritto, il Paese in cui era stato pubblicato, l'argomento trattato e la rilevanza politica specifica.

Paesi con la più alta frequenza di articoli sull'IA (minimo 100 articoli)

Grafico degli articoli sull'intelligenza artificiale prodotti per paese (percentuale sul totale degli articoli di cronaca scritti per paese) In generale, notiamo che il Ghana è un caso piuttosto anomalo in termini di contenuti generati dall'intelligenza artificiale. Sebbene la frequenza complessiva sia inferiore, anche l'India è un importante editore di contenuti generati dall'intelligenza artificiale, il che non dovrebbe sorprendere, dato che impatto dei deepfake sulle recenti elezioni indiane.

Frequenza AI per argomento

Grafico degli articoli sull'IA prodotti per argomento (percentuale del totale degli articoli di cronaca scritti su ciascun argomento)

Abbiamo notato che bellezza (articoli sponsorizzati), tecnologia e affari (truffe legate alle criptovalute) sono argomenti particolarmente ricorrenti negli articoli scritti dall'intelligenza artificiale. Sorprendentemente, la politica tende ad avere una rilevanza inferiore alla media negli articoli scritti dall'intelligenza artificiale: riteniamo che ciò sia dovuto al fatto che gli inserzionisti tendono ad evitare i siti di notizie politiche a causa dei rischi per la sicurezza del marchio, riducendo così l'incentivo per gli editori a produrre contenuti politici pensati per la pubblicità.

Come sono le "notizie" generate dall'intelligenza artificiale?

Identifichiamo diverse categorie di articoli di attualità sull'IA: siti creati appositamente per la pubblicità (MFA), articoli sponsorizzati, frodi e disinformazione.

Realizzato per la pubblicità

Un sito il cui unico scopo è quello di pubblicare annunci pubblicitari piuttosto che fornire contenuti legittimi è definito "MFA", ovvero un sito creato appositamente per la pubblicità. Ecco un esempio di MFA:

Sito creato appositamente per la pubblicità e pieno di annunci

Come possiamo vedere, nella parte superiore del sito web non ci sono contenuti effettivi oltre al titolo, mentre sono presenti 8 annunci pubblicitari che attirano l'attenzione dell'utente. Il contenuto AI sottostante non è realmente destinato alla lettura: è lì solo per attirare visitatori sul sito e assorbire le entrate pubblicitarie prima che gli utenti abbandonino immediatamente la pagina. Spesso gli inserzionisti non sono nemmeno consapevoli di fare pubblicità su questi siti: la natura programmatica della pubblicità digitale fa sì che le offerte per questo spazio pubblicitario vengano acquistate e vendute in pochi millisecondi utilizzando algoritmi di offerta automatizzati. Aziende come Jounce Media aiutano gli inserzionisti a evitare di sprecare il loro budget su siti come questo e fanno parte di un gruppo di aziende chiamato "Supply Chain Optimizers".

Jounce definisce tre caratteristiche chiave di un MFA:

  1. Traffico a pagamento: siti che hanno un pubblico organico scarso o nullo e che dipendono dalle visite provenienti da annunci clickbait di altri siti.
  2. Monetizzazione aggressiva: grazie a un elevato carico pubblicitario e a posizionamenti che si aggiornano automaticamente in modo rapido, questi editori sfruttano le opportunità di arbitraggio offerte dai mercati delle aste, ma a scapito dell'esperienza utente.
  3. KPI superficiali: questi siti ottengono punteggi elevati in termini di metriche vanitose come la visibilità e i tassi di completamento dei video, ma la ricerca di Jounce dimostra che gli annunci pubblicitari sugli MFA non influenzano effettivamente le decisioni di acquisto dei consumatori.

In sintesi, gli MFA sottraggono traffico pubblicitario dai siti con contenuti legittimi, al fine di offrire spazi pubblicitari a basso costo. Forniscono metriche vanitose alle campagne pubblicitarie programmatiche, senza fornire alcun contenuto utile o alcun ROI effettivo agli inserzionisti. Inquinano Internet e rendono l'esperienza utente ostile per il consumatore medio di Internet.

Sebbene non esista un parametro concreto che definisca cosa sia un MFA, stimiamo che gli MFA costituiscano circa il 50% dei contenuti generati dall'intelligenza artificiale online.

Contenuti a pagamento/sponsorizzati

Alcune notizie su Internet possono essere acquistate come mezzo per pubblicizzare un prodotto, mascherandosi da contenuti reali scritti da un influencer o da una rivista di recensioni legittima. Abbiamo notato che la bellezza era uno degli argomenti con la più alta frequenza di contenuti generati dall'intelligenza artificiale. Quando abbiamo approfondito i dati, abbiamo scoperto che gran parte degli articoli di "attualità" sull'argomento bellezza sono semplicemente articoli sponsorizzati come questo:

L'intelligenza artificiale ha scritto questo contenuto sponsorizzato di bassa qualità.

Molti copywriter ricorrono semplicemente all'uso dell'intelligenza artificiale per scrivere questi articoli sponsorizzati di bassa qualità, perché l'obiettivo è semplicemente quello di vendere lo spazio pubblicitario, piuttosto che generare una recensione autentica.

Truffe

I truffatori nel settore delle criptovalute utilizzano l'intelligenza artificiale per pompare contenuti ad alta velocità

Notiamo anche molte campagne di truffe banali generate con l'intelligenza artificiale. In particolare, le truffe legate alle criptovalute sembrano essere molto comuni e vengono persino promosse su siti affidabili come Medium.

Disinformazione

Un sito di disinformazione popolato da contenuti generati dall'intelligenza artificiale

Sebbene l'uso dell'IA sia in genere meno diffuso nelle notizie di politica (in gran parte perché molti inserzionisti tendono a evitare le notizie di politica per motivi di sicurezza del marchio), l'IA è una componente sempre più importante delle campagne di disinformazione. Newsguard dispone di un centro di monitoraggio dell'IA che tiene traccia in modo dettagliato e aggiornato della disinformazione basata sull'IA.

A differenza delle altre forme di inganno per cui vediamo i malintenzionati usare l'intelligenza artificiale, lo scopo di questi articoli è proprio quello di far leggere il contenuto alla gente. In genere, l'obiettivo di queste campagne è cambiare il sentimento o l'opinione pubblica su un argomento specifico.

Con l'avvicinarsi delle elezioni statunitensi a novembre, possiamo solo aspettarci che questo tipo di abuso dell'IA continui.

Sommario

  • Circa il 7% delle notizie quotidiane mondiali a luglio 2024 è probabilmente generato dall'intelligenza artificiale.
  • L'Africa occidentale e l'Asia meridionale sono casi anomali per quanto riguarda la quantità di contenuti pubblicati sull'intelligenza artificiale.
  • Bellezza, tecnologia e affari hanno la percentuale più alta di contenuti relativi all'intelligenza artificiale, mentre politica e opinione hanno quella più bassa.
  • I contenuti generati dall'intelligenza artificiale sono solitamente associati a comportamenti dolosi o ingannevoli. Gli MFA cercano di ingannare gli inserzionisti facendogli credere che spazi pubblicitari di bassa qualità siano in realtà di alta qualità. I contenuti sponsorizzati non sono necessariamente ingannevoli, ma non sono nemmeno autentici e non possono essere scambiati per recensioni reali dei consumatori. Le truffe e la disinformazione rappresentano una vera minaccia per gli utenti di Internet e il potenziale danno causato da questi siti è evidente.

Vuoi saperne di più sulla nostra mappa dei contenuti AI sul web o sulla nostra lista di blocco AI per gli inserzionisti? Contattaci all'indirizzo info@pangram.com!

Iscriviti alla nostra newsletter
Condividiamo aggiornamenti mensili sulla nostra ricerca nel campo del rilevamento dell'intelligenza artificiale.