Annonce d'un nouveau partenariat avec Proofig ! En savoir plus

60 000 articles d'actualité générés par l'IA sont publiés chaque jour.

Bradley Emi
5 août 2024

Aperçu

L'industrie de l'information représente 150 milliards de dollars et emploie des milliers de reporters et de journalistes qui rédigent des articles consultés des milliards de fois. Avec l'IA et l'essor des grands modèles linguistiques, de nombreux sites d'information de moindre qualité, ainsi que certains acteurs malveillants, se sont appuyés sur l'IA pour générer du contenu à moindre coût, rapidement et à grande échelle. Comme l'IA ne peut pas remplacer le rôle d'un journaliste, ces sites d'information se contentent de répéter les informations issues de leur formation ou de voler et reformuler les articles d'autres médias.

Il a également été prouvé que les contenus non authentiques sont moins appréciés et moins consultés par les internautes. Dans un récent article de blog, nous avons cité une étude menée par NP Digital qui a clairement démontré que les lecteurs en ligne préfèrent et privilégient les articles rédigés par des humains. Plus précisément :

  • Les lecteurs ont passé 93 % plus de temps sur les pages contenant du contenu rédigé par des humains que sur celles contenant uniquement du contenu généré par l'IA.
  • Les lecteurs étaient en moyenne 3,6 fois plus susceptibles de consulter des articles rédigés par des humains que ceux générés par l'IA.

Ces publications générées par l'IA ont principalement pour but de détourner le trafic et les revenus publicitaires potentiels des contenus d'information authentiques. Elles s'inscrivent dans le cadre d'une activité croissante de « content farming » (production massive de contenus) qui a capté 21 % des impressions publicitaires et plus de 10 milliards de dollars l'année dernière, en 2023.

Conscients de la menace et des dommages potentiels liés à cette recrudescence des fausses informations, nous avons souhaité quantifier l'ampleur réelle du problème. Nous avons collaboré avec NewsCatcher afin de classer un échantillon d'actualités publiées chaque jour à travers le monde.

Configuration de l'expérience

Nous avons commencé par compiler toutes les actualités mondiales publiées le 1er juillet 2024.

L'API de NewsCatcher est la source la plus exhaustive d'articles d'actualité mondiaux publiés quotidiennement, avec plus de 75 000 sources et desservant de grandes entreprises. Leur technologie nous a permis d'interroger le texte intégral d'articles publiés dans le monde entier, rédigés dans différentes langues et couvrant un large éventail de sujets.

À l'aide de NewsCatcher, nous avons collecté toutes les actualités publiées au cours d'une journée. À partir de cette base de données, nous avons analysé 857 434 articles provenant de 26 675 éditeurs en ligne, que nous considérons comme représentatifs des actualités quotidiennes publiées.

Approche de détection

Après avoir recherché les articles, nous avons utilisé notre classificateur Pangram Text pour déterminer lesquels avaient été générés par l'IA. Pangram Text est le leader du secteur en matière de précision de classification (plus de 30 fois plus précis que la deuxième solution commerciale la plus performante), avec un engagement fort en faveur d'un faible taux de faux positifs. Dans notre rapport technique, nous montrons que notre taux de faux positifs sur les actualités n'est que de 0,001 %, ce qui nous permet d'être confiants lorsque nous prédisons qu'une actualité est bien générée par l'IA. Notre solution prend généralement en entrée un document ou un texte et renvoie une prédiction de la probabilité qu'il ait été généré par un LLM. Pour une page web, nous devrions effectuer un post-traitement et un nettoyage du contenu de la page afin d'isoler uniquement le texte de l'article, mais grâce à la solution NewsCatcher, nous avons pu extraire directement le texte nettoyé et effectuer une inférence avec notre classificateur de texte.

Distribution de nos prédictions sur une échelle logarithmique. Nous utilisons une échelle logarithmique pour montrer que les prédictions proches de 0 ou 1 sont 100 à 1000 fois plus fréquentes que les prédictions situées au milieu du spectre.

Nous avons ensuite classé les éditeurs en fonction du nombre total d'articles publiés et les avons regroupés en fonction de la répartition de leur contenu total consacré à l'IA. Le cadre de regroupement est le suivant :

  • Si moins de 10 % des articles d'un éditeur sont étiquetés comme étant générés par l'IA, cet éditeur sera considéré comme un éditeur humain.
  • Si un éditeur avait entre 10 % et 50 % de ses articles étiquetés comme IA, cet éditeur serait considéré comme un éditeur IA mineur.
  • Si un éditeur avait entre 50 % et 80 % de ses articles étiquetés comme IA, cet éditeur serait considéré comme un éditeur IA majeur.
  • Si plus de 80 % des articles d'un éditeur étaient étiquetés comme étant générés par l'IA, cet éditeur serait considéré comme un éditeur entièrement généré par l'IA.

Statistiques agrégées

Sur l'ensemble des articles échantillonnés, nous avons constaté que :

59 653 articles ont été classés comme relevant de l'IA, soit 6,96 % de l'ensemble des articles.

La répartition des éditeurs en ligne

Éditeurs classés en fonction de la quantité de contenu IA qu'ils publient Nous avons ensuite examiné les classifications de l'IA en fonction de caractéristiques clés, notamment la langue dans laquelle l'article était rédigé, le pays où il avait été publié, le sujet qu'il traitait et son importance politique particulière.

Pays ayant la plus forte fréquence d'articles sur l'IA (minimum 100 articles)

Graphique des articles sur l'IA produits par pays (pourcentage du total des articles d'actualité rédigés par pays) Nous constatons de manière générale que le Ghana est un cas assez particulier en matière de contenu généré par l'IA. Bien que la fréquence globale soit plus faible, l'Inde est également un important éditeur de contenu généré par l'IA, ce qui n'est pas surprenant compte tenu de la impact des deepfakes sur les récentes élections indiennes.

Fréquence de l'IA par sujet

Graphique des articles sur l'IA par thème (pourcentage du nombre total d'articles consacrés à chaque thème)

Nous constatons que la beauté (articles sponsorisés), la technologie et les affaires (escroqueries cryptographiques) sont des sujets particulièrement importants sur lesquels les gens écrivent des articles IA. De manière quelque peu surprenante, la politique a tendance à être moins représentée que la moyenne dans les articles IA : nous pensons que cela s'explique par le fait que les annonceurs ont tendance à éviter les sites d'information politique en raison des risques liés à la sécurité des marques, ce qui réduit l'intérêt des éditeurs à produire du contenu politique destiné à la publicité.

À quoi ressemblent les « actualités » générées par l'IA ?

Nous identifions plusieurs catégories d'articles d'actualité sur l'IA : les sites créés à des fins publicitaires (MFA), les articles sponsorisés, la fraude et la désinformation.

Conçu pour la publicité

Un site dont le seul but est de diffuser des publicités plutôt que de fournir un contenu légitime est appelé « MFA » (site créé à des fins publicitaires). Voici un exemple de MFA :

Site conçu pour la publicité et rempli d'annonces publicitaires

Comme nous pouvons le constater, au-dessus de la ligne de flottaison du site Web, il n'y a aucun contenu réel autre que le titre, et huit publicités affichées rivalisent pour attirer l'attention de l'utilisateur. Le contenu généré par l'IA ci-dessous n'est pas vraiment destiné à être lu : il est simplement là pour attirer les visiteurs sur le site afin de générer des revenus publicitaires avant que les utilisateurs ne quittent immédiatement le site. Souvent, les annonceurs ne savent même pas qu'ils font de la publicité sur ces sites : la nature programmatique de la publicité numérique signifie que les enchères pour cet espace publicitaire sont achetées et vendues en quelques millisecondes à l'aide d'algorithmes d'enchères automatisés. Des entreprises comme Jounce Media aident les annonceurs à éviter de gaspiller leur budget sur des sites comme celui-ci et font partie d'un groupe d'entreprises appelé « Supply Chain Optimizers » (optimiseurs de la chaîne d'approvisionnement).

Jounce définit trois caractéristiques clés d'une MFA:

  1. Trafic payant: sites qui ont peu ou pas d'audience organique et qui dépendent des visites provenant de publicités clickbait d'autres sites.
  2. Monétisation agressive: grâce à une charge publicitaire élevée et à des emplacements qui s'actualisent automatiquement et rapidement, ces éditeurs saisissent une opportunité d'arbitrage sur les marchés d'enchères, mais au détriment de l'expérience utilisateur.
  3. Indicateurs clés de performance superficiels: ces sites obtiennent des scores élevés sur des indicateurs de vanité tels que la visibilité et les taux d'achèvement des vidéos, mais les recherches de Jounce montrent que les publicités sur les MFA n'ont en réalité aucune incidence sur les décisions d'achat des consommateurs.

En résumé, les MFA détournent le trafic publicitaire des sites proposant un contenu légitime afin de proposer des espaces publicitaires à bas prix. Ils fournissent des indicateurs de performance trompeurs aux campagnes publicitaires programmatiques, sans offrir de contenu utile ni de retour sur investissement réel aux annonceurs. Ils polluent Internet et nuisent à l'expérience utilisateur des internautes lambda.

Bien qu'il n'existe pas de mesure concrète permettant de définir ce qu'est une MFA, nous estimons que les MFA représentent environ 50 % du contenu généré par l'IA en ligne.

Contenu payant/sponsorisé

Certaines actualités sur Internet peuvent être achetées dans le but de promouvoir un produit, tout en se faisant passer pour du contenu réel rédigé par un influenceur ou une publication légitime. Nous avons remarqué que la beauté était l'un des sujets les plus fréquemment traités par les contenus générés par l'IA. En analysant les données, nous avons découvert que la plupart des articles « d'actualité » traitant de la beauté étaient simplement des articles sponsorisés, comme celui-ci :

L'IA a rédigé ce contenu sponsorisé de mauvaise qualité.

De nombreux rédacteurs ont simplement recours à l'IA pour rédiger ces articles sponsorisés de mauvaise qualité, car leur objectif est simplement de vendre l'emplacement plutôt que de générer un avis authentique.

Escroqueries

Les escrocs cryptographiques utilisent l'IA pour produire du contenu à grande vitesse.

Nous constatons également de nombreuses campagnes d'escroquerie banales générées par l'IA. Les escroqueries liées aux cryptomonnaies semblent particulièrement courantes et sont même promues sur des sites réputés tels que Medium.

Désinformation

Un site de désinformation rempli de contenu généré par l'IA

Bien que nous constations que l'utilisation de l'IA est généralement moins répandue dans l'actualité politique (en grande partie parce que de nombreux annonceurs ont tendance à éviter l'actualité politique en raison du risque pour la sécurité de leur marque), l'IA est une composante croissante des campagnes de désinformation. Newsguard dispose d'un centre de suivi de l'IA qui effectue un suivi détaillé et actualisé de la désinformation facilitée par l'IA.

Contrairement aux autres formes de tromperie pour lesquelles les acteurs malveillants utilisent l'IA, ces articles ont pour objectif d'inciter les gens à lire leur contenu. En général, ces campagnes visent à modifier l'opinion publique ou le sentiment général sur un sujet particulier.

À l'approche des élections américaines en novembre, nous ne pouvons que nous attendre à ce que ce type d'abus de l'IA se poursuive.

Résumé

  • En juillet 2024, environ 7 % de l'actualité quotidienne mondiale est susceptible d'être générée par l'IA.
  • L'Afrique de l'Ouest et l'Asie du Sud sont des cas particuliers en ce qui concerne la quantité de contenu publié sur l'IA.
  • La beauté, la technologie et les affaires ont la plus forte proportion de contenu lié à l'IA, tandis que la politique et les opinions ont la plus faible.
  • Le contenu généré par l'IA est généralement associé à une intention malveillante ou à un comportement trompeur. Les MFA tentent de tromper les annonceurs en leur faisant croire que des espaces publicitaires de mauvaise qualité sont en réalité des espaces premium. Le contenu sponsorisé n'est pas nécessairement trompeur, mais il n'est pas non plus véritablement authentique et ne peut être confondu avec un avis réel de consommateur. Les escroqueries et la désinformation constituent une véritable menace pour les internautes, et les dommages potentiels causés par ces sites sont évidents.

Vous souhaitez en savoir plus sur notre carte du contenu IA sur le Web ou sur notre liste noire IA pour les annonceurs ? Contactez-nous à l'adresse info@pangram.com!

Abonnez-vous à notre newsletter
Nous partageons chaque mois les dernières avancées de nos recherches en matière de détection de l'IA.