Proofigとの新たな提携を発表!詳細はこちら
第三者機関による調査研究が示す、Pangramが最も堅牢なAI検出ツールであること
ヒューストン大学、カリフォルニア大学バークレー校、カリフォルニア大学アーバイン校、およびスタートアップ企業エスペラントAIの研究者らは、多様な商用・オープンソース手法の中で、パングラムが最も堅牢なAIテキスト検出器であることを発見した。論文「エスペラント:テキスト起源のAI検出における堅牢性向上のための合成フレーズ評価」において、研究者らは言語翻訳がAI検出器の能力に及ぼす影響を研究した。
AI検出の既知の脆弱性として、AI生成テキストをGoogle翻訳で外国語に翻訳し、そのテキストを再び英語に逆翻訳することで、攻撃者(あるいは単に時間のない賢い学生)がAI検出プログラムを回避できることが知られています。Pangramではこの攻撃を内部で「二重翻訳」と呼び、研究者らは「バックトランスレーション」と呼んでいます。 以下に二重翻訳の例を示す。ChatGPTにテキスト作成を依頼し、まず日本語へ翻訳した後、再び英語へ翻訳する。翻訳ソフトは完全ではなく、同じ内容を表現する方法が複数存在するため、一部のフレーズが変化することに気付くだろう。これはQuillbotのような言い換えツールと同様の効果をもたらす。
ChatGPTが生成したテキスト
二重に翻訳されたテキスト
二重翻訳の例
競合他社の多くはこの手法に対して脆弱です。上記は市場で広く使われている競合AI検出器の一例です。このモデルはChatGPTからの生成文を即座にAIと判定しますが、二重翻訳を経た文ではAI判定率がわずか15%に低下します。
GPTZeroの結果
ある人気のある競合ツールは、元のAI生成テキストを正しく分類するが、二重翻訳されたテキストを人間が書いたものと誤って分類する。
しかしPangramは、元のChatGPTテキストと二重翻訳されたテキストの両方を99.99%の精度でAI生成と予測できる。AI生成テキストであると予測できるだけでなく、その原典がGPT-4であると確信を持って予測できるのだ。研究者らはこの現象を一般的な観点から大規模に研究することを目的とした。
パングラムの結果
パングラムは、元のテキストと二重翻訳されたテキストの両方をAI生成と正しく識別する
一つの例だけでは、我々の検出器が堅牢で他がそうでないことを証明するには不十分である。研究では、研究者らは数千ものニュース記事、科学論文の要約、Reddit投稿、製品レビューを収集し、これらが人間によって書かれたものであることを確認した。その後、GPT-3.5-Turbo、LLaMA 3、Mistral、Phi3、Yiを用いて複数のAI生成例を生成した。
全体として、翻訳攻撃を仕掛ける前から、多くのオープンソース手法や商用検出器は実際には全く効果がない。
まず、閾値が設定された。これは、文書をAIと判定する基準となるパーセンテージのカットオフ値を選択することを意味する。ほとんどのAI検出器は最終出力としてパーセンテージを示す。全ての検出器を比較可能な条件に置くため、各モデルの偽陽性率が1%となるように閾値が設定された。これにより、検出器の精度は真陽性の割合として比較可能となる:各検出器がその閾値でどれだけ多くのAI例を捕捉できるか?
本論文で検討した他の手法の多くは、AIコンテンツの検出に完全に失敗している。例えば、ZeroGPTやGPTZeroは、特定のドメインではどの閾値でも1%の偽陽性率すら達成できず、RADARやLLMDetのようなよく引用される学術論文でさえ、正確性は50%に満たない。
性能評価のための提案指標は、1%の偽陽性率(FPR)における真陽性率(TPR)を測定することである。つまり、偽陽性率を一定に保った状態で、モデルがAI生成テキストをどの程度の頻度で検出できるかを示す。ZeroGPTはほとんどの領域において、いかなる閾値でも1%の偽陽性率すら達成できず、RADARやLLMDetといった著名な学術論文でさえ、この指標では50%を大きく下回る結果に留まっている。
一方、Pangramは全ドメインにおいて偽陽性率1%で96%以上の再現率を達成し、困難なレビューデータセット(40~50語程度の短いレビューを含む)でも85%を達成している(これは商用環境におけるAI検出の推奨単語数閾値を大幅に下回る)。
二重翻訳攻撃の後、多くの検出器は完全に機能しなくなる。例えばGPTZeroは、ニュース分野では97%からわずか42%に、レビュー分野では65%から9%に低下した。研究者らは「GPTZeroとZeroGPTの結果は、逆翻訳技術に対する頑健性の欠如を示している…Pangramはある程度の頑健性を示し、特に長いテキストで顕著である」と結論づけている。
完全な結果をここに再現する。パングラムは全カテゴリーにおいて優れた性能を示している。
AI検出器比較結果表
エスペラント論文におけるパングラムの頑健性を示す結果表
本研究は、パングラムが現在市場で唯一、学術・商業環境で信頼性高く使用可能なAI検出ソフトウェアであり、二重翻訳などの手法で回避できないという我々の主張をさらに裏付けるものである。
これは偶然でも偶然の一致でもありません。パングラムの頑健性は、一般化能力を備えた強力なモデルの証左であり、大規模なデータセットと我々のターゲット型能動学習アプローチによって支えられています。誰にでも、時折あるいは大半のケースで機能するAI検知ツールを構築することは可能ですが、テキストが改変された際に完全に機能不全に陥ることなく、信頼性が高く一貫した精度を達成できるのは、我々のスケーラブルなアプローチのみです。
当社はAI検知モデルの性能と堅牢性の向上に常に取り組んでいます。敵対的機械学習に関する最新の研究動向を常に把握し、自社モデルが潜在的な攻撃や回避手法に対して耐えられるよう継続的に検証しています。
この話題については、近日中に続報をお届けします!