Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

L'industrie de l'information représente 150 milliards de dollars et emploie des milliers de reporters et de journalistes qui rédigent des articles consultés des milliards de fois. Avec l'IA et l'essor des grands modèles linguistiques, de nombreux sites d'information de moindre qualité, ainsi que certains acteurs malveillants, se sont appuyés sur l'IA pour générer du contenu à moindre coût, rapidement et à grande échelle. Comme l'IA ne peut pas remplacer le rôle d'un journaliste, ces sites d'information se contentent de répéter les informations issues de leur formation ou de voler et reformuler les articles d'autres médias.
Il a également été prouvé que les contenus non authentiques sont moins appréciés et moins consultés par les internautes. Dans un récent article de blog, nous avons cité une étude menée par NP Digital qui a clairement démontré que les lecteurs en ligne préfèrent et privilégient les articles rédigés par des humains. Plus précisément :
Ces publications générées par l'IA ont principalement pour but de détourner le trafic et les revenus publicitaires potentiels des contenus d'information authentiques. Elles s'inscrivent dans le cadre d'une activité croissante de « content farming » (production massive de contenus) qui a capté 21 % des impressions publicitaires et plus de 10 milliards de dollars l'année dernière, en 2023.
Conscients de la menace et des dommages potentiels liés à cette recrudescence des fausses informations, nous avons souhaité quantifier l'ampleur réelle du problème. Nous avons collaboré avec NewsCatcher afin de classer un échantillon d'actualités publiées chaque jour à travers le monde.
Nous avons commencé par compiler toutes les actualités mondiales publiées le 1er juillet 2024.
L'API de NewsCatcher est la source la plus exhaustive d'articles d'actualité mondiaux publiés quotidiennement, avec plus de 75 000 sources et desservant de grandes entreprises. Leur technologie nous a permis d'interroger le texte intégral d'articles publiés dans le monde entier, rédigés dans différentes langues et couvrant un large éventail de sujets.
À l'aide de NewsCatcher, nous avons collecté toutes les actualités publiées au cours d'une journée. À partir de cette base de données, nous avons analysé 857 434 articles provenant de 26 675 éditeurs en ligne, que nous considérons comme représentatifs des actualités quotidiennes publiées.
Après avoir recherché les articles, nous avons utilisé notre classificateur Pangram Text pour déterminer lesquels avaient été générés par l'IA. Pangram Text est le leader du secteur en matière de précision de classification (plus de 30 fois plus précis que la deuxième solution commerciale la plus performante), avec un engagement fort en faveur d'un faible taux de faux positifs. Dans notre rapport technique, nous montrons que notre taux de faux positifs sur les actualités n'est que de 0,001 %, ce qui nous permet d'être confiants lorsque nous prédisons qu'une actualité est bien générée par l'IA. Notre solution prend généralement en entrée un document ou un texte et renvoie une prédiction de la probabilité qu'il ait été généré par un LLM. Pour une page web, nous devrions effectuer un post-traitement et un nettoyage du contenu de la page afin d'isoler uniquement le texte de l'article, mais grâce à la solution NewsCatcher, nous avons pu extraire directement le texte nettoyé et effectuer une inférence avec notre classificateur de texte.
Distribution de nos prédictions sur une échelle logarithmique. Nous utilisons une échelle logarithmique pour montrer que les prédictions proches de 0 ou 1 sont 100 à 1000 fois plus fréquentes que les prédictions situées au milieu du spectre.
Nous avons ensuite classé les éditeurs en fonction du nombre total d'articles publiés et les avons regroupés en fonction de la répartition de leur contenu total consacré à l'IA. Le cadre de regroupement est le suivant :
Sur l'ensemble des articles échantillonnés, nous avons constaté que :
59 653 articles ont été classés comme relevant de l'IA, soit 6,96 % de l'ensemble des articles.
Éditeurs classés en fonction de la quantité de contenu IA qu'ils publient
Nous avons ensuite examiné les classifications de l'IA en fonction de caractéristiques clés, notamment la langue dans laquelle l'article était rédigé, le pays où il avait été publié, le sujet qu'il traitait et son importance politique particulière.
Graphique des articles sur l'IA produits par pays (pourcentage du total des articles d'actualité rédigés par pays)
Nous constatons de manière générale que le Ghana est un cas assez particulier en matière de contenu généré par l'IA. Bien que la fréquence globale soit plus faible, l'Inde est également un important éditeur de contenu généré par l'IA, ce qui n'est pas surprenant compte tenu de la impact des deepfakes sur les récentes élections indiennes.
Graphique des articles sur l'IA par thème (pourcentage du nombre total d'articles consacrés à chaque thème)
Nous constatons que la beauté (articles sponsorisés), la technologie et les affaires (escroqueries cryptographiques) sont des sujets particulièrement importants sur lesquels les gens écrivent des articles IA. De manière quelque peu surprenante, la politique a tendance à être moins représentée que la moyenne dans les articles IA : nous pensons que cela s'explique par le fait que les annonceurs ont tendance à éviter les sites d'information politique en raison des risques liés à la sécurité des marques, ce qui réduit l'intérêt des éditeurs à produire du contenu politique destiné à la publicité.
Nous identifions plusieurs catégories d'articles d'actualité sur l'IA : les sites créés à des fins publicitaires (MFA), les articles sponsorisés, la fraude et la désinformation.
Un site dont le seul but est de diffuser des publicités plutôt que de fournir un contenu légitime est appelé « MFA » (site créé à des fins publicitaires). Voici un exemple de MFA :

Site conçu pour la publicité et rempli d'annonces publicitaires
Comme nous pouvons le constater, au-dessus de la ligne de flottaison du site Web, il n'y a aucun contenu réel autre que le titre, et huit publicités affichées rivalisent pour attirer l'attention de l'utilisateur. Le contenu généré par l'IA ci-dessous n'est pas vraiment destiné à être lu : il est simplement là pour attirer les visiteurs sur le site afin de générer des revenus publicitaires avant que les utilisateurs ne quittent immédiatement le site. Souvent, les annonceurs ne savent même pas qu'ils font de la publicité sur ces sites : la nature programmatique de la publicité numérique signifie que les enchères pour cet espace publicitaire sont achetées et vendues en quelques millisecondes à l'aide d'algorithmes d'enchères automatisés. Des entreprises comme Jounce Media aident les annonceurs à éviter de gaspiller leur budget sur des sites comme celui-ci et font partie d'un groupe d'entreprises appelé « Supply Chain Optimizers » (optimiseurs de la chaîne d'approvisionnement).
Jounce définit trois caractéristiques clés d'une MFA:
En résumé, les MFA détournent le trafic publicitaire des sites proposant un contenu légitime afin de proposer des espaces publicitaires à bas prix. Ils fournissent des indicateurs de performance trompeurs aux campagnes publicitaires programmatiques, sans offrir de contenu utile ni de retour sur investissement réel aux annonceurs. Ils polluent Internet et nuisent à l'expérience utilisateur des internautes lambda.
Bien qu'il n'existe pas de mesure concrète permettant de définir ce qu'est une MFA, nous estimons que les MFA représentent environ 50 % du contenu généré par l'IA en ligne.
Certaines actualités sur Internet peuvent être achetées dans le but de promouvoir un produit, tout en se faisant passer pour du contenu réel rédigé par un influenceur ou une publication légitime. Nous avons remarqué que la beauté était l'un des sujets les plus fréquemment traités par les contenus générés par l'IA. En analysant les données, nous avons découvert que la plupart des articles « d'actualité » traitant de la beauté étaient simplement des articles sponsorisés, comme celui-ci :

L'IA a rédigé ce contenu sponsorisé de mauvaise qualité.
De nombreux rédacteurs ont simplement recours à l'IA pour rédiger ces articles sponsorisés de mauvaise qualité, car leur objectif est simplement de vendre l'emplacement plutôt que de générer un avis authentique.
Les escrocs cryptographiques utilisent l'IA pour produire du contenu à grande vitesse.
Nous constatons également de nombreuses campagnes d'escroquerie banales générées par l'IA. Les escroqueries liées aux cryptomonnaies semblent particulièrement courantes et sont même promues sur des sites réputés tels que Medium.
Un site de désinformation rempli de contenu généré par l'IA
Bien que nous constations que l'utilisation de l'IA est généralement moins répandue dans l'actualité politique (en grande partie parce que de nombreux annonceurs ont tendance à éviter l'actualité politique en raison du risque pour la sécurité de leur marque), l'IA est une composante croissante des campagnes de désinformation. Newsguard dispose d'un centre de suivi de l'IA qui effectue un suivi détaillé et actualisé de la désinformation facilitée par l'IA.
Contrairement aux autres formes de tromperie pour lesquelles les acteurs malveillants utilisent l'IA, ces articles ont pour objectif d'inciter les gens à lire leur contenu. En général, ces campagnes visent à modifier l'opinion publique ou le sentiment général sur un sujet particulier.
À l'approche des élections américaines en novembre, nous ne pouvons que nous attendre à ce que ce type d'abus de l'IA se poursuive.
Vous souhaitez en savoir plus sur notre carte du contenu IA sur le Web ou sur notre liste noire IA pour les annonceurs ? Contactez-nous à l'adresse info@pangram.com!
