Proofigとの新たな提携を発表!詳細はこちら

毎日6万本のAI生成ニュース記事が公開されている

ブラッドリー・エミ
2024年8月5日

概要

ニュース産業は1500億ドル規模の業界であり、数千人の記者やジャーナリストが記事を作成し、数十億回の閲覧数を獲得している。AIと大規模言語モデルの台頭により、多くの低品質ニュースサイトや悪質な事業者は、安価・迅速・大量にコンテンツを生成するためAIに依存している。AIはジャーナリストの役割を代替できないため、こうしたニュースサイトは学習データからの情報反復や他メディア記事の盗用・言い換えに限定されている。

不自然なコンテンツは、オンライン視聴者にとって魅力が低く、アクセスも少ないことが実証されています。最近のブログ記事では、NP Digitalが実施した調査を引用し、オンライン読者が人間が作成した記事を好んで優先することを明確に示しました。具体的には:

  • 読者は、純粋にAI生成されたコンテンツよりも、人間が書いたコンテンツのページで93%長く滞在した。
  • 読者は平均して、AI生成記事よりも人間が書いた記事を3.6倍訪問する可能性が高かった

これらのAI生成コンテンツは主に、本物のニュースコンテンツからトラフィックと潜在的な広告収益を奪い取るために存在し、拡大を続けるコンテンツファーム事業の一部として機能している。この事業は2023年、広告インプレッションの21%と100億ドル超を掌握した。

この偽ニュースの台頭がもたらす脅威と潜在的な損害を認識し、我々はこの問題の実際の規模を定量化したいと考えた。NewsCatcherと協力し、世界中で公開されたニュースのサンプルを特定の日ごとに分類した。

実験装置

私たちはまず、2024年7月1日に世界中で発表されたすべてのニュースを収集することから始めました。

NewsCatcherのAPIは、75,000以上の情報源を擁し、大企業組織にサービスを提供する、毎日公開される世界中のニュース記事の最も網羅的な情報源です。同社の技術により、世界中で公開された記事の全文をクエリすることが可能になりました。これらの記事は様々な言語で書かれ、幅広いトピックをカバーしています。

NewsCatcherを用いて、1日に公開された全ニュースを収集した。このデータダンプから、26,675のオンライン出版社から収集した857,434記事を分析した。これは、毎日公開されるニュースの代表的な集合体と見なす。

検出アプローチ

記事の収集後、当社が開発したPangram Text分類器を実行し、AI生成記事の特定を行いました。Pangram Textは業界最高水準の分類精度(次位の商用ソリューションと比較して30倍以上の精度)を誇り、誤検知率の低減に注力しています。技術報告書では、ニュース記事における誤検知率がわずか0.001%であることを実証しており、AI生成と判定したニュース記事が真にAI生成であるという確信を得ています。 当社のソリューションは通常、文書またはテキストを入力として受け取り、それがLLMによって生成された可能性の予測値を出力します。ウェブページの場合、記事テキストのみを抽出するために後処理とコンテンツのクリーニングが必要ですが、NewsCatcherソリューションを利用することで、クリーニング済みのテキストを直接取得し、テキスト分類器による推論を実行することができました。

予測値の対数スケールでの分布。対数スケールを用いることで、0または1に近い予測値がスペクトルの中間値よりも100~1000倍頻繁に発生することを示している。

次に、各出版社の総記事数を基に分類し、AIコンテンツの割合別の区分でバケット分けした。バケット分けの枠組みは以下の通りである:

  • 出版社がAIとラベル付けされた記事が10%未満の場合、その出版社は人間による出版社と見なされる
  • 出版社が掲載記事の10%から50%をAI生成と表示している場合、その出版社は小規模なAI出版社と見なされる
  • 出版社が掲載記事の50%から80%をAI生成と表示している場合、その出版社は主要なAI出版社と見なされる
  • 出版社の記事の80%以上がAI生成とラベル付けされている場合、その出版社は完全なAI生成出版社と見なされる

集計統計

調査対象となった全記事のうち、以下のことが判明した:

59,653件の記事がAIに分類され、これは記事全体の6.96%を占める。

オンライン出版社の衰退

AIコンテンツの公開量別に分類された出版社 次に、記事の言語、掲載国、扱ったトピック、および特別な政治的関連性といった主要な特徴について、AIによる分類結果を検討した。

AI関連記事の掲載頻度が最も高い国々(最低100記事)

国別AI記事生産量グラフ(国別ニュース記事総数に占める割合) 一般的に、ガーナはAI生成コンテンツに関してかなり顕著な外れ値であることが確認される。全体的な頻度は低いものの、インドもAI生成コンテンツの主要な発信国であり、これは当然のことと言える。 ディープフェイクが最近のインド総選挙に与えた影響.

トピック別AI頻度

トピック別AI記事のグラフ(各トピックに関する記事が全ニュース記事に占める割合)

美容(スポンサー記事)、テクノロジーとビジネス(仮想通貨詐欺)は、AI記事の執筆対象として特に大きなテーマであることが確認されています。やや意外なことに、政治関連のAI記事は平均より少ない傾向にあります。これは広告主がブランドセーフティリスクを懸念して政治ニュースサイトを避ける傾向にあるため、出版社が広告向けに政治コンテンツを制作するインセンティブが低下していると考えられます。

AIによる「ニュース」とはどのようなものか?

AI関連ニュース記事には以下のカテゴリーを特定しました:広告目的サイト(MFA)、スポンサー記事、詐欺、偽情報。

広告用に制作

正当なコンテンツを提供するのではなく、広告を表示することだけを目的としたサイトは「MFA」——広告専用サイト——と呼ばれます。MFAの例を以下に示します:

広告専用サイトで広告だらけ

ご覧の通り、ウェブサイトのスクロールせずに見える範囲(above the fold)には、タイトル以外に実質的なコンテンツは存在せず、ユーザーの注意を争う8つのディスプレイ広告が配置されています。下部のAI生成コンテンツは、実際に読まれることを意図したものではありません。ユーザーがすぐに離脱する前に、サイト訪問者を引きつけて広告収益を吸収するための存在に過ぎないのです。 広告主は、こうしたサイトに広告を出稿していることすら認識していない場合が多い。デジタル広告のプログラムmaticな性質上、この広告枠の入札は自動入札アルゴリズムによって数ミリ秒単位で売買されているからだ。 JounceMediaのような企業は、広告主がこのようなサイトに予算を浪費するのを防ぐ支援を行っており、「サプライチェーン最適化企業」と呼ばれる企業群の一角を担っている。

JounceはMFAの3つの主要な特徴を定義する:

  1. 有料トラフィック:自然流入がほとんどない、あるいは全くないサイトで、他サイトからのクリックベイト広告経由の訪問に依存している。
  2. 攻撃的な収益化:高い広告負荷と自動更新が速い広告枠を通じて、これらのパブリッシャーは入札市場で裁定機会を捉えるが、その代償としてユーザー体験を損なう。
  3. 表面的なKPI:これらのサイトはビューアビリティや動画完了率といった見せかけの指標で高評価を得ているが、Jounceの調査によれば、MFA上の広告は実際には購入者の購買決定に影響を与えていない。

要約すると、MFAは正当なコンテンツを持つサイトから広告トラフィックを盗み、安価な広告枠供給を実現している。プログラム広告キャンペーンには見せかけの指標を提供する一方で、広告主にとって有益なコンテンツや実際の投資対効果(ROI)は一切提供しない。インターネット上に散乱し、一般ユーザーにとって不快な体験を生み出している。

MFAを定義する具体的な指標は存在しないものの、オンライン上のAI生成コンテンツの約50%をMFAが占めていると推定される。

有料コンテンツ/スポンサー提供コンテンツ

インターネット上のニュースの中には、インフルエンサーや正当なレビュー媒体が執筆した実際のコンテンツを装いながら、製品広告の手段として購入されるものがあります。美容分野はAI生成コンテンツの頻度が最も高いトピックの一つであることに気づきました。データを掘り下げたところ、美容トピック下の「ニュース」記事の多くは、以下のような単なるスポンサード記事であることが判明しました:

AIがこの質の低いスポンサーコンテンツを書きました

多くのコピーライターは、単なる広告枠の販売が目的であり、本物のレビューを生成することではないため、こうした質の低いスポンサード記事を書くためにAIの使用に頼っている。

詐欺

暗号通貨詐欺師はAIを活用し、高速でコンテンツを量産している

AIで生成されたありふれた詐欺キャンペーンも数多く見受けられます。特に仮想通貨関連の詐欺は非常に一般的であり、Mediumのような信頼できるサイトでも宣伝されているほどです。

偽情報

AIコンテンツで埋め尽くされた偽情報サイト

政治ニュースではAIの利用が比較的少ない傾向にある(広告主がブランドセーフティリスクを懸念し政治ニュースを避ける傾向が強いことが主な要因)一方で、AIは偽情報キャンペーンにおいて拡大する要素となっている。ニュースガードはAI追跡センターを運営しており、AIを活用した偽情報を詳細かつ最新の情報で追跡している。

悪意ある行為者がAIを利用する他の欺瞞手法とは異なり、こうした記事の目的は実際に読者にコンテンツを読ませることにある。通常、こうしたキャンペーンの目的は特定のトピックに対する世論や意見を変えることだ。

11月の米国大統領選挙が近づくにつれ、こうしたAIの悪用が続くことは避けられないだろう。

要約

  • 2024年7月時点で、世界の毎日のニュースの約7%はAIによって生成されている可能性が高い。
  • 西アフリカと南アジアは、公開されるAIコンテンツの量に関して特異な存在である。
  • 美容、テクノロジー、ビジネス分野がAIコンテンツの割合が最も高く、政治と意見分野が最も低い。
  • AIコンテンツは通常、何らかの悪意や欺瞞的な行為と結びつけられる。MFA(偽装広告)は、低品質な広告スペースを実際にはプレミアムなものと信じ込ませるよう広告主を欺こうとする。スポンサードコンテンツは必ずしも欺瞞的ではないが、真に本物のコンテンツでもなく、実際の消費者レビューと誤認される可能性はない。詐欺や偽情報はインターネットユーザーを真に脅かし、こうしたサイトが引き起こす潜在的な害は明らかである。

ウェブ上のAIコンテンツマップや広告主向けAIブロックリストについて詳しく知りたいですか?info@pangram.com までお問い合わせください!

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。