Twitter、LinkedIn、Substackなどで、投稿が人間によるものかAIによるものかを即座に見分けられます。新しいChrome拡張機能を入手してください。
インターネットユーザーがどこを見ても、AIが生成したテキスト、動画、画像が溢れており、その多くは見分けがつかない。オンライン空間の神聖さと信頼は、AIコンテンツの重圧の下で崩れつつある。バイデン大統領のAI安全に関する大統領令や 欧州連合(EU)のAI法は、AIの出力結果への適切な表示、いわゆる「透かし」を提唱していたが、これらの規制は2025年に撤廃された。 国や国際的な戦略が存在しないにもかかわらず、多くのAI企業は依然として、コンテンツに「透かし」信号を開発・導入している。これは、国民の信頼を取り戻し、消費者を保護するための正しい方向への一歩ではあるが、透かしは容易に回避されてしまう欠陥のある手法である。
以下では、透かしの仕組み、その効果が得られない理由、そして優れたAI検出手法が特定のパターン認識手法に依存しなければならない理由について解説します。
人間には、AIによる透かしは見えません。従来の透かしのように会社名やロゴを表示するのではなく、AIによる透かしは、AIモデルのテキスト、画像、動画の出力結果に、気づかれない形で埋め込まれます。
Googleは「SynthID」を採用しています。これはGeminiの出力に、Google独自の技術で検出可能な微細な変化を埋め込むものです。テキストの場合、SynthIDは擬似乱数関数に基づいて特定の単語の予測可能性スコアを変化させ、Geminiが特定の単語を使用するよう誘導します。そのため、そのテキストをモデルに再入力すると、モデルは単語の出現頻度分析に基づいて、自身の生成したテキストであることを認識できるようになります。
米国法の下では、AIによって完全に生成されたコンテンツは著作権の対象とならないため、AI企業にとっては、自社モデルのコンテンツの出所を特定する方法を開発することが利益になる。そうすれば、AIによって生成されたテキスト、画像、または動画がウェブ上で流通した際、その出所を特定するための目印となる。
ビッグテックが「出所」の特定をこれほど強く求めているのは、自社モデルの生成物に対する権利を主張したいからだけではない。インターネットユーザーが毎日、次から次へと押し寄せるAI生成の粗悪なコンテンツに呆然とする中、大手AI開発企業は、自社に降りかかる可能性のある法的リスク、評判の低下、セキュリティ上のリスクを懸念している。 悪意ある者たちはAIツールを利用してディープフェイクを作成したり、誤情報を拡散したりし、世界の安全を脅かしている。政府による厳しい規制という形で取り締まりが行われる可能性を回避するため、ビッグテック各社は自主規制のためのツールを構築することで、先手を打とうとしている。もし彼らのモデルがコンテンツを生成するのと同じくらい容易にコンテンツを解読できるのであれば、なぜ政府機関がその開発を監視する必要があるだろうか?
もし世界中の誰もがAI生成コンテンツを決して改変しないと約束するなら、透かしを入れる手法も有効だったかもしれません。しかし現実には、悪意のある者がAI生成コンテンツを容易に改変し、その出所を隠蔽することができてしまいます。ヒューマナイザーのような二次的な言い換えツールを使えば、単語や文構造を簡単に変更し、AI生成コンテンツを偽装するために不自然な表現や支離滅裂な文章を挿入することが可能です。残念ながら、この粗末な偽装が通用してしまうこともあります。Pangram Labsが19種類のAIヒューマナイザーをテストしたところ、その多くがテキストから透かしを完全に除去することに成功していることが判明しました。
悪意のある者は、テキストを複数の異なる翻訳ツールに通してから英語に逆翻訳することで、テキストを「洗浄」することも可能です。これにより、透かしを削除し、AI企業の解読システムに検知されないような「クリーン」な文章を作り出すことができます。
透かしは繊細で改ざんされやすいため、役に立たなくなってしまいます。検出には他のツールが必要です。
AIが生成した粗悪なコンテンツの責任を負う企業が、そのコンテンツが自社のものであるかどうかを単独で特定することはできない。透かしを入れるにはAI開発者の協力が必要であり、また、それは瞬く間に削除されてしまう可能性がある。
しかし、ある手法が失敗しても、別の手法が成功するものです。「独立統計的パターン認識」と呼ばれる手法は、AI生成コンテンツの特定においてはるかに堅牢かつ信頼性が高く、それがPangramでこの手法を採用している理由です。私たちは、AI生成テキストに埋め込まれた隠しコードを探すのではなく、Pangramのモデルが任意のテキストの根本的な言語的DNA、構造的な予測可能性、および構文パターンを分析することで、99.98%の精度でAI生成コンテンツを検出します。 Pangramのような高度な検出ツールは、機能するために透かしを必要としません。これらは「ハードネガティブマイニング」と呼ばれる手法を通じて多様なデータセットで学習されており、検出が困難な例が検出ツールに与えられます。Pangramは、オープンソースや未公開のモデルから生成されたAIコンテンツを特定し、悪意を持って改変されたテキストを識別し、AI生成と人間による執筆が混在する文章について行単位の分析を提供することができます。
AI企業は、インターネット上の信頼性を守る守護者にはなれない。透かし入れは悪意ある攻撃者には通用しない戦略であり、独立した検知こそが唯一の真の解決策である。
当社のモデルはすでに実運用されています。Quoraのようなユーザーの信頼を基盤とするプラットフォームでは、Pangramを活用してAPIレベルでの検知機能をサービスに組み込み、数百万件の投稿をモデレートし、AI生成コンテンツにフラグを立てています。
インターネット上で真の信頼性と透明性を実現するには、検知型フレームワークが不可欠です。Pangramのような信頼性が高く、独立した最先端の検知ツールは、インターネット全体におけるチェック・アンド・バランスを構築するのに役立っています。
研究者、専門家、IT開発者のいずれであっても、透かしは万能の解決策ではありません。学術的不正行為やAIによるスパムコンテンツから守るには、検知が不可欠です。論文、電子メール、ソーシャルメディアの投稿の出所を正確に確認するためには、組織は透かしではなく、テキストを分析する検知ツールを活用する必要があります。
プラットフォームの保護を透かしだけに頼ってはいけません。Pangramを使えば、AI生成コンテンツの改変を即座に検知できます。