Proofigとの新たな提携を発表!詳細はこちら

AI検出器における偽陽性に関するすべて

ブラッドリー・エミ
2025年3月27日

パングラムにおける私たちの仕事の最も重要な側面の一つは、誤検知率を最小限に抑えることです。これは、人間の文章がAI生成と誤って判定される可能性を可能な限り低減することを意味します。 本日は、様々な種類の文章におけるパングラムの誤検知率、誤検知率を可能な限り低く保つためのモデル測定・評価手法、そして最後に、業界で最も低い誤検知率を実現するAI検出ソフトウェア構築に用いる技術の一部について説明します。

偽陽性とは何か?

AI検出の文脈において、偽陽性とは検出器が人間が作成したサンプルを誤ってAI生成と判定することを指す。一方、偽陰性とはAI生成サンプルが誤って人間作成と判定されることを指す。

AI検出における偽陽性と偽陰性

上記の図は2種類の誤りを示しています。赤が陰性クラス、緑が陽性クラスを表す場合、赤のXが緑と予測された場合は偽陽性となり、緑のOが赤と予測された場合は偽陰性となります。

統計学では、第I種誤差と第II種誤差という用語が用いられる:これらは全く同じ意味を持つ。第I種誤差は偽陽性(陽性誤り)を、第II種誤差は偽陰性(陰性誤り)を指す。 統計学者、特に医学分野で働く人々は、これら二つの誤り率を区別するために感度(sensitivity) と特異度(specificity)という用語も使用します。機械学習の研究者は精度(precision) と再現率(recall)という用語を用います。これらの用語には若干の技術的な違いがありますが、教育目的上、本記事では単に「偽陽性」と「偽陰性」という表現に統一します。この二種類の誤りに対して最も自明な用語であると考えられるためです。

AI検出において、誤検知(偽陽性)は誤否認(偽陰性)よりもはるかに深刻な問題である。AIの支援なしに自ら課題を作成した学生を繰り返しAI盗用と非難することは、教師と学生の間の信頼を大きく損ない、学生に多大な不安やストレスをもたらす可能性がある。一方、誤否認は時折不正行為者が見逃されることを意味するが、これはそれほど悪い結果ではない。

他の検出問題では、偽陰性が偽陽性よりもはるかに大きな害をもたらす可能性がある点に留意すべきである。例えば、がん検診において、検査が誤って患者にがんがあると判断する方が、実際のがんを見逃すよりもはるかに望ましい。 仮に検査が誤って患者に癌があると判断した場合、患者が再検査や追加の処置・検査を受ける手間は生じるものの、患者の生命を脅かす癌の診断を見逃すことよりははるかにましである。

AI検出に戻ると、誤検知(偽陽性)は誤検出(偽陰性)よりも害が大きいものの、どちらも重要です。AI生成テキストを一貫して見逃したり、人間によるテキストと誤って予測したりすることは、ツールの価値を損なうことにもなります。したがって、Pangramでは、偽陰性と偽陽性の両方を可能な限り最小限に抑えることを基本方針としつつ、偽陽性をより優先的に扱うようにしています。

パングラムの偽陽性率はどれくらいですか?

答えは、場合による!

全体として、偽陽性率はおよそ1万件に1件と測定されています。文章の種類やその他の変数によって、時には少し高くなったり、少し低くなったりします。

Pangramの偽陽性率を多様な文章で測定しています。これらを「ドメイン」と呼びます。網羅的ではありませんが、各ドメインで内部測定した最新の偽陽性率を以下に示します:

ドメイン偽陽性率
学術論文0.004%
製品レビュー(英語)0.004%
製品レビュー(スペイン語)0.008%
製品レビュー(日本語)0.015%
科学抄録0.001%
コードドキュメント0.0%
議会記録0.0%
レシピ0.23%
医学論文0.000%
米国ビジネスレビュー0.0004%
ハリウッド映画の脚本0.0%
ウィキペディア(英語版)0.016%
ウィキペディア(スペイン語版)0.07%
ウィキペディア(日本語版)0.02%
ウィキペディア(アラビア語版)0.08%
ニュース記事0.001%
0.003%
0.05%
政治演説0.0%
ソーシャルメディアQ&A0.01%
創作、短編小説0.009%
ハウツー記事0.07%

パングラムが偽陽性に陥りやすい要因は何か?

一般的に、パングラムは次の条件が満たされた場合に最高のパフォーマンスを発揮します:

  • テキストは十分に長い(数百語以上)
  • 本文は完全な文で書かれている
  • このドメインは一般的なオンライン学習データセットで十分に代表されている
  • 本文はより創造的な要素を含み、定型的な表現が少ない

これらの要因により、パングラムはエッセイ、創作文章、レビューにおいて最高の性能を発揮すると考えられます。一方、ニュース記事、科学論文、ウィキペディアの項目はより定型的で技術的ですが、これらの分野ではデータが豊富に存在するため、パングラムは文章内の微妙なパターンさえも認識する能力を非常に高めています。 最後に、レシピや詩などの分野は最も弱い領域です。これらのテキストは短文である傾向があり、完全な文で書かれていないため(LLMが独自の文体をテキストに注入する機会が少なくなる)、また一般的に他の分野よりもオンライン上で希少であるためです。

実用的な観点から、これは何を意味するのでしょうか?パングラムはあらゆる分野で比較的信頼性が高いものの、テキストが長く完全な文で構成され、執筆者による独自の入力がより多く求められる場合に、その正確性はより確かなものとなります。 このため、箇条書きリストやアウトライン、数学式、非常に短い回答(例:単文)、データの長リストやスプレッドシート、テンプレートベースの文書、取扱説明書など定型的なテキストのスクリーニングには推奨しません。

パングラムの偽陽性率は競合他社と比べてどうですか?

競合他社に対して同様の詳細なベンチマークを実施することはできません。その理由は、実施コストが極めて高額になるためです。ただし、競合他社が公表している偽陽性率については確認が可能です。

ターニチン

ターンイティンのウェブサイトで報告されている誤検知率

ターンイティンの最新ホワイトペーパーによると、学術論文における誤検知率は0.51%(文書レベル)であり、約200件に1件の割合となる。これは学生の提出物200件ごとに1件が誤ってAI生成と判定されることを意味する。

学術論文の類似データセットで測定した偽陽性率は0.004%であり、これは25,000件に1件の割合に相当します。

これは大きな違いである。大規模な研究大学では、年間10万本の論文が提出される可能性がある。これはTurnitinでは500件の誤検知が発生する一方、Pangramではわずか4件しか発生しないという差に相当する。

GPTゼロ

GPTZeroのウェブサイトで報告されている偽陽性率

GPTZeroは1%の偽陽性率を主張しているが、これはTurnitinの2倍、Pangramの250倍悪い数値である。

公平な比較のため、一般VIPセットから抽出した小規模文書セットを用いて、GPTZeroとPangramの内部ベンチマークを実施しました。その結果、誤検知率は報告値より悪い2.01%であることが判明しました。

コピリークス

Copyleaksが自社ウェブサイトで報告している誤検知率

Copyleaksは誤検知率0.2%(500件に1件)を主張しているが、これが事実ならばPangramの50倍悪い結果となる。

さらに、このような単独の数字だけでは全体像は把握できません。データの出所や評価における潜在的なバイアスが不明だからです。だからこそ私たちは徹底的なベンチマークを実施し、モデル評価のプロセスを詳細に記した本記事を公開するのです。

RAIDベンチマーク

昨年Liam Duganらによって発表されたRAID研究(当方が掲載した研究総括記事の2番目の研究)について、以下のグラフに注目していただきたい。

検出器間におけるRAID研究の偽陽性率

ほとんどの検出器は「閾値」を設定します。これは、その値を超えるとモデルがテキストをAI生成と判断し、下回ると人間による生成と判断する信頼度の割合です。閾値を調整することで、誤検知と見逃しをトレードオフできます。

このグラフでは、x軸はしきい値移動による偽陽性率を示し、y軸は再現率を示しています。再現率とは、そのしきい値で評価した際にAI文書として分類可能なAI文書の割合です。

要するに、競合他社の検出器は偽陽性率を1%未満に抑えるよう強制されると動作しなくなる。つまり、閾値を1%の偽陽性率(FPR)を生じるほど低く設定した場合、AIを一切検出できなくなるのである。

パングラムの偽陽性率をどのように評価すればよいでしょうか?

Pangramは、新しいモデルがダッシュボードやAPIにデプロイされる前に、極めて厳格な承認とテストのプロセスを経ます。

QAプロセスでは、偽陽性に対する3種類のテストを実施しており、それぞれ定量的評価と定性的評価のバランスを取っています。評価内容は以下の通りです:

  1. 大規模な検証データセット。各データセットあたり約1万から1000万例。これらはChatGPT以前の(2022年)大規模なオープンアクセスインターネットデータベースであり、我々は訓練に使用されていない検証データセットを選定し、純粋に評価目的のみのために確保したものである。

  2. 中規模VIPデータセット。各セット約1,000例。これらはエンジニアやラベラーが信頼できるソースから手作業で収集し、目視検査を経て、人間が書いたものであることを個別に検証したデータセットです。訓練を受けた専門家はAI生成コンテンツの目視検出に長けていますが、時折誤りを犯すため、当社は定期的にデータを監査し、正確性を確保するためにクリーニングを行っています。

  3. チャレンジセット。各セットあたり約10~100例。これらは過去に報告された誤検知、協力者から寄せられた難解な事例、そして一般的に、我々の性能を検証したい興味深い事例です。 また、大規模言語モデル訓練データセットでは十分に代表されていない、レシピ、詩、映画脚本、その他の特殊な形式のテキスト例も収集しています。これらも同様にチャレンジセットと見なし、モデルが「分布外」の状況でどれだけ良好に動作するかの総合的なベンチマークとしています。

これら3種類のQAに加え、ユニットテストも実施しています。このユニットテストは、俗に言う「恥ずかしい失敗」をモデルで検証するものです。現在のユニットテストスイートでは、独立宣言書や文学の名句、自社ウェブサイトのコピーやブログ記事などに対し、人間による予測を要求します。これらのユニットテストのいずれかが失敗した場合、新モデルのデプロイをブロックし、設計段階に戻ります。 評価における私たちの指針の一つは、こうした「恥ずかしい失敗」の追跡と監視に常に警戒を怠らず、新モデルリリース時に再発しないようにすることです。

Pangramで使用される3種類の評価セットを示す図:大規模ホールドアウトセット(1000万例以上)、中規模VIPセット(1000例以上)、チャレンジセット(10~100例)

数学や科学に傾倒する人々はこう問うかもしれない:なぜ定性評価が必要なのか?サンプルは多ければ多いほど良いのではないのか?

これに対する私の見解はこうだ:サンプル数が多いほど良いとは限らない。賢明な預言者がかつて言ったように、嘘、ひどい嘘、そして統計がある。しかし真剣に言えば、大規模なデータセットを作成する際には、常に何らかのバイアスが混入すると我々は考えている。 そして、全例を検証できないほど巨大なデータセットでは、モデルがデータ内のバイアスに過学習し、テストでは良好な結果を出すものの、実世界では不適切な動作を引き起こす可能性があるのです(余談ですが、これが「99%の精度」を謳う多くのオンラインAI検出ツールが、実際にテストするとその精度に遠く及ばない理由だと私たちは考えています)。

これらの多様なテストスイートの重要性を示す面白い事例が、Pangramの初期段階、トレーニングセットに初めてWikipediaを導入した際に発生した。最初の失敗例の一つは、ホールドアウトセットでは良好な結果を出したものの、手作業で収集したWikipedia記事で構成されるVIPセットでは極めて低調だった。 結局判明したのは、使用していたHuggingfaceデータセットにおいて、人間側の 国際音声記号で表記された人名の発音が、モデルが過学習してしまう非常に奇妙な形式に変換されていたことでした。モデルは単に名前の書式を見て、その書式に基づいて文書がAIか人間かを判断していたのです。 ホールドアウトセットでは良好な結果を出したが、モデルがその特定のヒントを持たない実世界では全く役に立たなかった!これが、Pangramが実世界で遭遇するテキストの種類を正確に反映したテストセットの重要性である。

パングラムでは、モデルをお客様に出荷する前に、定量的および定性的評価を含む厳格な承認プロセスを実施します。このプロセスでは、モデルにストレステストを課し、現行モデルとの比較においてその性能を精査します。

  1. 定量的評価:すべてのホールドアウトデータ、VIPセット、およびチャレンジケースにおける偽陽性率指標は回帰分析の対象とすべきでない。

  2. 定性的評価:多くの場合、一部の例は改善され、一部の例は後退する。可能な限り、後退した具体的な例を目視で確認し、失敗が説明可能であることを保証する。これはしばしば微妙であり、テスト対象の特定の仮説に依存するが、一般的には、失敗事例がデプロイ後の実環境での失敗に一般化されるような特定のパターンを示さないことを確認したい。

  3. 雰囲気チェック/レッドチームング:最後に、定量的・定性的評価が完了したら、モデルをチームに配布し、しばらく試してもらうことで「雰囲気チェック」を行います。更新内容によっては、モデルを広く公開する前に、内部テスターやベータ顧客にもテストしてもらう場合があります(通常は、モデルを破綻させるケースを見つけてもらうよう促します!)。

  4. 遡及的A/Bテスト:過去の予測に対してオフライン推論を実行し、旧モデルと新モデルの差異を検証します。過去に推論したデータについて常に真値が得られるわけではありませんが、現実世界の失敗事例を示す可能性のある一貫したパターンを探求します。

要約すると、我々はモデルの性能をメトリクスや統計で測定する際に極めて徹底的かつ科学的なアプローチを取る一方で、数字だけで全体像を判断することはありません。目視による検証、直感、パターン認識能力も信頼し、メトリクスでは見逃される可能性のあるエラーパターンをモデルから探り出します。また、テスト担当者、レッドチームメンバー、ベータ顧客からなるチームにも依存し、開発チームが見落とした可能性のある欠陥を発見してもらっています。

このような低い偽陽性率を達成するために、我々が用いる手法は何ですか?

低い誤検知率を維持することは、我々の研究ミッションの中核をなす。以下に、業界最高水準の誤検知率を達成するためにこれまで採用してきた手法の一部を示す。

包括的なトレーニングデータの網羅性

競合他社のAI検出ツールは「学術機関・学校・教室・教育者向けに設計されている」と謳っているかもしれませんが、実際にはそのトレーニングデータセットが学術論文のみを含んでいる可能性が高いのです。

一方、私たちは「苦い教訓」を活用するためにパングラムを構築した。すなわち、多様なソースからの大量データで学習した汎用学習アルゴリズムは、特定領域のデータで学習した特化モデルよりも効果的であるという教訓である。

つまり、我々のAI検出器は多様な文章で訓練されます:創作、技術文書、科学論文、百科事典、レビュー、ウェブサイト、ブログ記事…挙げればきりがありません。その理由は、教養教育のように幅広い分野や文体の文章に触れることで、モデルが新たな事例に遭遇した際により良く理解し一般化できるようになるためです。 AIトレーニングの広範な潮流に従い、ChatGPTやその他の大規模言語モデルは特定のユースケース向けデータで訓練されるのではなく、汎用的な大規模テキストデータで訓練され、汎用的な知能を獲得します。私たちは、LLMが生成しうるあらゆる種類のテキストに対して頑健なAI検出器を訓練するためにも、同じ戦略を採用すべきだと考えています。

ハードネガティブマイニング/アクティブラーニング

我々はハードネガティブマイニングと呼ばれる技術を活用した能動的学習アルゴリズムについて詳細に記述しており、これが偽陽性率をほぼゼロまで低減できた主な理由であると確信している。

本質的にこれが機能する理由は、実世界の例の大半が「容易な例」であるためだ。モデルが人間とAIの基本パターンを学習すれば、データセットの大部分においてどちらがどちらかを判別するのは極めて容易になる。しかし、これで達成できる精度は約99%に留まる。 残りの数%の精度を向上させるには、モデルを訓練する上で最も困難なケースを見つけ出す必要がある。具体的には、人間が意図的にAI言語モデルと非常に似た書き方をしているように見えるが、実際には偶然そうなっているケースを想定できる。 こうした困難な否定例を見つけるため、LLMの訓練に使用されるようなインターネット規模のデータセットに対して大規模な検索を行い、その後合成ミラーリングによって類似したAI例を生成します。詳細は「仕組み」ページでご覧いただけます。

損失重み付けとオーバーサンプリング

我々は最適化目標を、モデルが学習プロセス自体においても偽陽性を偽陰性よりも優先するように設定する。モデルが人間の文書を誤判定した場合、AI文書を誤判定した場合よりもはるかに重いペナルティが課される。これによりモデルは保守的になり、絶対的な確信がある場合にのみ文書をAIと予測するよう強制される。

校正

これはRAIDで説明されているしきい値選択に関連します。評価セット内の数百万の文書を評価し、偽陽性率と偽陰性率を適切にトレードオフさせることでしきい値を選択します。このしきい値選択により、偽陽性を損なわない範囲で偽陰性率を合理的な水準に保つバランスを図っています。

要点

  • パングラムは競合他社よりも著しく低い偽陽性率を示している。
  • パングラムの極めて低い偽陽性率は、規模、訓練、および検索の組み合わせによるものである。
  • AI検出において偽陽性率が極めて重要であるため、我々は非常に包括的なテストおよびQAスイートを構築し、慎重な統計的評価と、より雑多で定性的な人間の判断や雰囲気チェックを組み合わせた徹底的な承認プロセスを開発した。

研究者の方々と協力し、ソフトウェアの総合的な精度向上に取り組むことを大切にしております。AI検出におけるオープンなベンチマークと透明性にも情熱を注いでいます。当社との連携・協業に関するお問い合わせ、またはPangramの精度に関するご質問は、info@pangram.comまでご連絡ください。

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。