Proofigとの新たな提携を発表!詳細はこちら

なぜパープレクシティとバースト性がAIを検出できないのか

ブラッドリー・エミ
2025年3月4日

AI検出器の仕組みをオンラインで検索すると、多くの情報源が「パープレクシティ」と「バースト性」という用語を引用しているのが一般的です。これらの用語はどのような意味を持ち、なぜAI生成コンテンツの検出には最終的に機能しないのでしょうか?本日はパープレクシティとバースト性の本質を解き明かし、AI生成文章の検出に適さない理由を説明します。 さらに、なぜこれらが機能しないのか、なぜパープレクシティとバーストネスに基づく検出器が独立宣言書をAI生成と誤判定するのか、そしてなぜこれらの検出器が非ネイティブ英語話者に偏見を持つのかについても掘り下げていきます。さあ始めましょう!

パープレクシティとバースト性とは何ですか?

まず、パープレクシティについて大まかな理解を得るために、非技術的な大まかな定義から始めましょう。パープレクシティの詳細な背景については、この2分間の解説記事が非常に参考になりました。

困惑度とは、特定の言語モデルや大規模言語モデル(LLM)の観点から見たとき、テキスト内の各単語がどれほど予想外であるか、あるいは驚くべきものであるかを示す指標である。

例えば、次の2つの文があります。説明のために、各文の最後の単語に注目しましょう。最初の例では、最後の単語のパープレクシティは低いです。一方、2番目の例では、最後の単語のパープレクシティは高くなっています。

低パーセクシティ

今日の昼食には、*スープ*を一碗食べました。

高難度

今日の昼食には、*クモ*の入ったお椀を食べた。

第二文が高度な難解性を示す理由は、言語モデルが学習データセットにおいて人がクモの入ったボウルを食べる例を目にする機会が極めて稀であるためである。したがって、文末が「スープ」や「サンドイッチ」、「サラダ」といった表現ではなく「クモ」で締めくくられていることは、言語モデルにとって非常に驚くべきことなのである。

困惑(perplexity)は「困惑した(perplexed)」と同じ語源を持ち、「混乱した」または「当惑した」という意味である。言語モデルが混乱する状態として捉えると理解しやすい:訓練過程で学習した内容と比較して、未知または予期せぬものに出会った時、その言語モデルは文の補完に混乱したり当惑したりしていると考えることができる。

では、バースト性についてはどうでしょうか?バースト性とは、文書全体にわたるパープレクシティの変化を指します。もし文書全体にわたり、予想外の単語やフレーズが散りばめられている場合、その文書はバースト性が高いと言えます。

困惑度とバースト性に基づく検出器はどのように機能するのか?

残念ながら、Pangramを除くほとんどの商用検出器は手法について透明性を欠いているが、説明から理解される限りでは、人間のテキストはAI生成テキストよりもパープレクシティが高くバースト性が高いとみなされ、AI生成テキストは確率が低くバースト性も低いとされる。

以下に可視化結果を示します!HuggingfaceからGPT-2モデルをダウンロードし、2つの文書(人間のレストランレビューとAI生成レビュー)の全テキストについてパープレクシティを計算しました。その後、パープレクシティの低いテキストを青色で、高いテキストを赤色で強調表示しています。

AIと人間のテキストを比較した難解さの可視化

ご覧の通り、AI生成テキストは全体が濃い青色で、均一に低いパープレクシティ値を示しています。一方、人間生成テキストは主に青色ですが、赤色のスパイクが散見されます。これが我々が言うところの「高いバースト性」です。

この考えこそが、困惑検出器やバースト検出器の着想源となっている。初期の商用AI検出器のいくつかがこの概念に基づいているだけでなく、学術文献においてもDetectGPTやBinocularsといった研究に影響を与えている。

公平を期すならば、こうした難解性や突発性の検出器は確かに時折機能する!しかし我々は、誤りを絶対に避けねばならない高リスクな環境——例えば教室において誤検知が教師と生徒の信頼関係を損なう可能性や、さらに深刻な場合、法廷で不正確な証拠を生み出す恐れがあるような場面——で、これらが確実に機能するとは考えていない。

欠点1:トレーニングセット内のテキストが誤ってAIとして分類される

大規模言語モデル(LLM)の生成プロセスに詳しくない方のために説明すると、LLMがチャットボットとして展開・利用可能になる前に、まず「トレーニング」と呼ばれる手順を経る必要があります。トレーニング中、言語モデルは数十億ものテキストを学習し、いわゆる「トレーニングデータセット」の基盤となる言語パターンを習得します。

このブログ記事では、トレーニング手順の精密な機械的詳細には触れませんが、重要な点は最適化プロセスにおいて、LLMがトレーニングセット文書に対するパープレクシティを最小化するよう直接的に動機づけられることです!言い換えれば、モデルはトレーニング過程で繰り返し目にするテキスト断片は可能な限りパープレクシティが低いものであるべきだと、時間をかけて学習するのです。

なぜそれが問題なのですか?

モデルがトレーニングセット文書を低パープレクシティにするよう求められているため、パープレクシティとバースト性検出器は、トレーニングセット文書が実際に人間が書いたものである場合でも、一般的なトレーニングセット文書をAIと分類してしまう!

それが、パープレクシティベースのAI検出器が独立宣言をAI生成と判定する理由だ。独立宣言は有名な歴史的文書であり、無数の教科書やウェブ上の記事で複製されているため、AIのトレーニングセットに頻繁に登場するからだ。 そして、訓練中にこのテキストが毎回全く同じ形で出現するため、モデルは独立宣言書を見分ける能力を記憶し、自動的に全てのトークンに非常に低いパープレクシティを割り当てます。その結果、バースト性(突発性)も極めて低くなってしまうのです。

上記の可視化を独立宣言書にも適用したところ、同じAIの特徴が確認された:全体に深い青色が一貫して見られ、これは各単語のパープレキシティが低いことを示している。パープレキシティとバースト性を基にした検出器の観点では、独立宣言書はAI生成コンテンツと完全に区別がつかない。

興味深いことに、独立宣言の最初の文は、他の部分よりもさらに濃い青色で、低パープレクシティであることに気づきます。これは、最初の文がこの文章の中で圧倒的に最も多く複製された部分であり、GPT-2のトレーニングセットで最も頻繁に現れるためです。

独立宣言のパープレクシティ可視化

同様に、LLMの訓練データとしてよく用いられる他のソースでも、パープレキシティやバースト性検出器による誤検知率が高くなる傾向が見られる。ウィキペディアは、その高品質かつ制限の少ないライセンスから非常に一般的な訓練データセットである。そのため、言語モデルがウィキペディア記事のパープレキシティ低減を直接最適化対象としていることから、AI生成と誤判定されるケースが極めて多い。

AIが発展し高度化するにつれ、この問題は深刻化しています。最新の言語モデルは膨大なデータを必要とするためです。OpenAI、Google、Anthropicのクローラーは、あなたがこの記事を読んでいるまさにこの瞬間も、言語モデル訓練用のデータを収集し続けるべく、インターネットを猛烈な勢いでスクレイピングしています。 出版社やウェブサイト運営者は、LLMトレーニングのためにこれらのスクレイパーに自社サイトをクロールさせることで、将来的に自社のコンテンツがAI生成物と誤分類される可能性を懸念すべきだろうか? OpenAIへのデータ提供を検討している企業は、LLMがデータを学習した後、そのデータがAI生成物と誤判定されるリスクを天秤にかける必要があるのだろうか? 私たちはこれを完全に容認できない失敗事例であり、しかも時間とともに悪化している問題だと認識している。

欠点 #2: 困惑度とバースト性は言語モデルによって異なる

検出指標としてパープレキシティとバーストネスを用いるもう一つの問題は、これらが特定の言語モデルに依存する点である。例えばGPTで想定される値が、Claudeでは想定されない可能性がある。また新モデルが登場すると、そのパープレキシティも異なる。

いわゆる「ブラックボックス」パープレクシティベース検出器は、実際のパープレクシティを測定するために言語モデルを選択する必要がある。しかし、その言語モデルのパープレクシティが生成器のパープレクシティと異なる場合、著しく不正確な結果が生じる。この問題は、新しいモデルがリリースされるたびに悪化していく。

欠点その3:商業モデルは必ずしも困惑を明らかにしない

クローズドソースのプロバイダーは各トークンの確率を常に提供するわけではないため、ChatGPT、Gemini、Claudeなどのクローズドソースの商用モデルではパープレクシティすら計算できません。せいぜいオープンソースモデルを使ってパープレクシティを測定できますが、それは欠点2と同じ問題に直面します。

欠点4:非ネイティブ英語テキスト(ESL)が誤ってAIと分類される

非ネイティブ英語話者に対するAI検出の偏見が指摘されるようになった背景には、2023年にスタンフォード大学がTOEFLエッセイ91件を対象に行った研究がある。Pangramは非ネイティブ英語テキストを幅広くベンチマークし、トレーニングセットに組み込むことでモデルの認識・検出能力を確保しているが、パープレクシティベースの検出器では確かに非ネイティブ英語テキストに対する誤検知率が高くなっている。

その理由は、英語学習者が書く文章は一般的にパープレクシティが低く、バースト性も低いからです。これは偶然ではないと考えます。言語学習過程において、学習者の語彙は著しく限られており、また学習者は言語モデルにとって異常な、あるいは驚異度が高い複雑な文構造を形成できないためです。 我々は、言語的に正しいまま高いパープレクシティとバースト性を伴う書き方を習得することは、言語経験から得られる高度な言語スキルであると主張する。

英語を母語としない学習者、ひいては神経多様性のある学生や障害のある学生は、困惑ベースのAI検出器に引っかかりやすい傾向にあると考えられます。

欠点 #5: パープレクシティベース検出器は反復的に自己改善できない

私たちが考える困惑度ベース検出器の最大の欠点、そしてPangramが代わりに深層学習ベースのアプローチを選択した理由は、これらの困惑度ベース検出器がデータと計算規模に応じて自己改善できない点にある。

これはどういう意味でしょうか?パングラムは、当社のアクティブラーニングアルゴリズムを通じて人間のテキストを学習するにつれ、次第に精度が向上します。これにより、誤検知率は2%から1%、0.1%へと低下し、現在では0.01%にまで改善されました。一方、パープレクシティベースの検出器は、より多くのデータを学習しても精度を向上させることができません。

参考資料と関連文献

結論

AI生成文章との相関性を示す統計値を算出することと、AI生成文章を確実に検出できる実用レベルのシステムを構築することには大きな隔たりがある。本記事で説明した理由から、パープレクシティベースの検出器は人間の文章を人間らしく、AIの文章をAIらしくする重要な側面を捉えているものの、実用アプリケーションで許容できる誤検知率を維持しつつ、AI生成文章を確実に検出するためにパープレクシティベースの検出器を使用することはできない。

教育のような環境では誤検知回避が極めて重要であるため、研究がパープレクシティやバースト性といった指標ベースの手法から離れ、深層学習ベースの手法へと移行することを期待している。

これにより、PangramがAI生成テキストの検出にパープレクシティやバースト性を採用せず、代わりに拡張性のある信頼性の高い手法に注力している理由について、何らかの洞察が得られることを願っています。

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。