Annunciamo una nuova partnership con Proofig! Per saperne di più

Il settore dell'informazione è un'industria da 150 miliardi di dollari che impiega migliaia di reporter e giornalisti per scrivere articoli che ricevono miliardi di visualizzazioni. Con l'avvento dell'intelligenza artificiale e dei modelli linguistici di grandi dimensioni, molti siti di informazione di bassa qualità e alcuni malintenzionati hanno fatto ricorso all'IA per generare contenuti in modo economico, rapido e su larga scala. Poiché l'IA non può sostituire il ruolo di un giornalista, questi siti di informazione si limitano a ripetere le informazioni apprese durante la loro formazione o a rubare e riformulare gli articoli di altre testate.
È stato inoltre dimostrato che i contenuti non autentici sono meno apprezzati e meno visitati dagli utenti online. In un recente post sul blog abbiamo citato una ricerca condotta da NP Digital che ha chiaramente dimostrato che i lettori online preferiscono e danno la priorità agli articoli scritti da esseri umani. Nello specifico:
Queste pubblicazioni basate sull'intelligenza artificiale esistono principalmente per sottrarre traffico e potenziali introiti pubblicitari ai contenuti informativi autentici e fanno parte di una crescente operazione di content farming che lo scorso anno, nel 2023, ha catturato il 21% delle impressioni pubblicitarie e oltre 10 miliardi di dollari.
Consapevoli della minaccia e dei potenziali danni causati dall'aumento delle notizie non autentiche, abbiamo voluto quantificare l'effettiva portata del problema. Abbiamo collaborato con NewsCatcher per classificare un campione giornaliero di notizie pubblicate a livello globale.
Abbiamo iniziato raccogliendo tutte le notizie pubblicate nel mondo il 1° luglio 2024.
L'API di NewsCatcher è la fonte più completa di articoli di attualità pubblicati quotidianamente a livello globale, con oltre 75.000 fonti e al servizio di grandi organizzazioni aziendali. La loro tecnologia ci ha permesso di consultare il testo completo di articoli pubblicati in tutto il mondo, scritti in diverse lingue e che coprono una vasta gamma di argomenti.
Utilizzando NewsCatcher, abbiamo raccolto tutte le notizie pubblicate in un giorno; da questo archivio di dati, abbiamo analizzato 857.434 articoli raccolti da 26.675 editori online, che considereremo come un insieme rappresentativo delle notizie quotidiane pubblicate.
Dopo aver raccolto gli articoli, abbiamo eseguito il nostro classificatore Pangram Text per determinare quali articoli fossero stati generati dall'IA. Pangram Text è leader nel settore per quanto riguarda l'accuratezza della classificazione (oltre 30 volte più accurato rispetto alla seconda soluzione commerciale più diffusa), con un forte impegno a ridurre l'incidenza dei falsi positivi. Nel nostro rapporto tecnico, dimostriamo che il nostro tasso di falsi positivi sulle notizie è solo dello 0,001%, il che ci permette di essere sicuri quando prevediamo che una notizia sia stata generata dall'IA. La nostra soluzione in genere prende in input un documento o un testo e restituisce una previsione della probabilità che sia stato generato da un LLM. Per una pagina web, dovremmo eseguire alcune operazioni di post-elaborazione e pulizia del contenuto della pagina per isolare solo il testo dell'articolo, ma utilizzando la soluzione NewsCatcher siamo stati in grado di estrarre direttamente il testo pulito ed eseguire l'inferenza con il nostro classificatore di testo.
Distribuzione delle nostre previsioni su una scala logaritmica. Utilizziamo una scala logaritmica per mostrare che le previsioni vicine a 0 o 1 sono 100-1000 volte più comuni rispetto alle previsioni al centro dello spettro.
Abbiamo quindi classificato gli editori in base al numero totale dei loro articoli e li abbiamo suddivisi in categorie in base alla ripartizione dei loro contenuti totali relativi all'intelligenza artificiale. Il quadro di suddivisione è il seguente:
Sul totale degli articoli esaminati, abbiamo riscontrato che:
59.653 articoli sono stati classificati come AI, pari al 6,96% del totale degli articoli.
Editori classificati in base alla quantità di contenuti AI pubblicati
Abbiamo quindi esaminato le classificazioni dell'IA in base a caratteristiche chiave quali la lingua in cui l'articolo era scritto, il Paese in cui era stato pubblicato, l'argomento trattato e la rilevanza politica specifica.
Grafico degli articoli sull'intelligenza artificiale prodotti per paese (percentuale sul totale degli articoli di cronaca scritti per paese)
In generale, notiamo che il Ghana è un caso piuttosto anomalo in termini di contenuti generati dall'intelligenza artificiale. Sebbene la frequenza complessiva sia inferiore, anche l'India è un importante editore di contenuti generati dall'intelligenza artificiale, il che non dovrebbe sorprendere, dato che impatto dei deepfake sulle recenti elezioni indiane.
Grafico degli articoli sull'IA prodotti per argomento (percentuale del totale degli articoli di cronaca scritti su ciascun argomento)
Abbiamo notato che bellezza (articoli sponsorizzati), tecnologia e affari (truffe legate alle criptovalute) sono argomenti particolarmente ricorrenti negli articoli scritti dall'intelligenza artificiale. Sorprendentemente, la politica tende ad avere una rilevanza inferiore alla media negli articoli scritti dall'intelligenza artificiale: riteniamo che ciò sia dovuto al fatto che gli inserzionisti tendono ad evitare i siti di notizie politiche a causa dei rischi per la sicurezza del marchio, riducendo così l'incentivo per gli editori a produrre contenuti politici pensati per la pubblicità.
Identifichiamo diverse categorie di articoli di attualità sull'IA: siti creati appositamente per la pubblicità (MFA), articoli sponsorizzati, frodi e disinformazione.
Un sito il cui unico scopo è quello di pubblicare annunci pubblicitari piuttosto che fornire contenuti legittimi è definito "MFA", ovvero un sito creato appositamente per la pubblicità. Ecco un esempio di MFA:

Sito creato appositamente per la pubblicità e pieno di annunci
Come possiamo vedere, nella parte superiore del sito web non ci sono contenuti effettivi oltre al titolo, mentre sono presenti 8 annunci pubblicitari che attirano l'attenzione dell'utente. Il contenuto AI sottostante non è realmente destinato alla lettura: è lì solo per attirare visitatori sul sito e assorbire le entrate pubblicitarie prima che gli utenti abbandonino immediatamente la pagina. Spesso gli inserzionisti non sono nemmeno consapevoli di fare pubblicità su questi siti: la natura programmatica della pubblicità digitale fa sì che le offerte per questo spazio pubblicitario vengano acquistate e vendute in pochi millisecondi utilizzando algoritmi di offerta automatizzati. Aziende come Jounce Media aiutano gli inserzionisti a evitare di sprecare il loro budget su siti come questo e fanno parte di un gruppo di aziende chiamato "Supply Chain Optimizers".
Jounce definisce tre caratteristiche chiave di un MFA:
In sintesi, gli MFA sottraggono traffico pubblicitario dai siti con contenuti legittimi, al fine di offrire spazi pubblicitari a basso costo. Forniscono metriche vanitose alle campagne pubblicitarie programmatiche, senza fornire alcun contenuto utile o alcun ROI effettivo agli inserzionisti. Inquinano Internet e rendono l'esperienza utente ostile per il consumatore medio di Internet.
Sebbene non esista un parametro concreto che definisca cosa sia un MFA, stimiamo che gli MFA costituiscano circa il 50% dei contenuti generati dall'intelligenza artificiale online.
Alcune notizie su Internet possono essere acquistate come mezzo per pubblicizzare un prodotto, mascherandosi da contenuti reali scritti da un influencer o da una rivista di recensioni legittima. Abbiamo notato che la bellezza era uno degli argomenti con la più alta frequenza di contenuti generati dall'intelligenza artificiale. Quando abbiamo approfondito i dati, abbiamo scoperto che gran parte degli articoli di "attualità" sull'argomento bellezza sono semplicemente articoli sponsorizzati come questo:

L'intelligenza artificiale ha scritto questo contenuto sponsorizzato di bassa qualità.
Molti copywriter ricorrono semplicemente all'uso dell'intelligenza artificiale per scrivere questi articoli sponsorizzati di bassa qualità, perché l'obiettivo è semplicemente quello di vendere lo spazio pubblicitario, piuttosto che generare una recensione autentica.
I truffatori nel settore delle criptovalute utilizzano l'intelligenza artificiale per pompare contenuti ad alta velocità
Notiamo anche molte campagne di truffe banali generate con l'intelligenza artificiale. In particolare, le truffe legate alle criptovalute sembrano essere molto comuni e vengono persino promosse su siti affidabili come Medium.
Un sito di disinformazione popolato da contenuti generati dall'intelligenza artificiale
Sebbene l'uso dell'IA sia in genere meno diffuso nelle notizie di politica (in gran parte perché molti inserzionisti tendono a evitare le notizie di politica per motivi di sicurezza del marchio), l'IA è una componente sempre più importante delle campagne di disinformazione. Newsguard dispone di un centro di monitoraggio dell'IA che tiene traccia in modo dettagliato e aggiornato della disinformazione basata sull'IA.
A differenza delle altre forme di inganno per cui vediamo i malintenzionati usare l'intelligenza artificiale, lo scopo di questi articoli è proprio quello di far leggere il contenuto alla gente. In genere, l'obiettivo di queste campagne è cambiare il sentimento o l'opinione pubblica su un argomento specifico.
Con l'avvicinarsi delle elezioni statunitensi a novembre, possiamo solo aspettarci che questo tipo di abuso dell'IA continui.
Vuoi saperne di più sulla nostra mappa dei contenuti AI sul web o sulla nostra lista di blocco AI per gli inserzionisti? Contattaci all'indirizzo info@pangram.com!
