Proofigとの新たな提携を発表!詳細はこちら

パングラムは、AIコンテンツの識別において人間の専門家を上回る唯一のAI検出器である

ブラッドリー・エミ
2025年1月29日

メリーランド大学とマイクロソフトの共同研究者であるジェナ・ラッセル、マルゼナ・カルピンスカ、モヒット・アイヤーによる新たな研究結果が発表され、パングラムが最良のAI検出システムであり、AI生成コンテンツの検出において訓練を受けた人間の専門家を上回る唯一のシステムであることが示されました。詳細はこちらの論文をご覧ください。

ジェナ・ラッセルのツイート

研究者らは、自動化されたAI検出器の有効性を研究するだけでなく、訓練を受けた人間の専門家がAI生成コンテンツの特徴的な兆候を特定するのに役立つシグナルをどのように捉えるかについても掘り下げた。この研究はAI検出における説明可能性と解釈可能性にとって大きな前進であると確信しており、この研究方向性をさらに探求できることに期待している。

このブログ記事では、研究のハイライトと、今後のLLM検出にとっての意義について解説します。

人間をAI検出器に育成する

過去に、AI生成文の検出方法や 人間の基準テストについて、またそれらを活用してAI生成テキストに関する貴重な知見を得て、より優れたモデル開発に役立てている点について記してきました。

通常、AI生成のレビューやエッセイ、ブログ記事、ニュースを見分ける訓練を始めるとき、最初はあまり上手ではありません。テキストがChatGPTや他の言語モデルによって生成されたものであることを示す兆候を察知できるようになるまでには、しばらく時間がかかります。 例えばレビューを分析し始めた頃、大量のデータから「最近、私は~する喜びを」というフレーズで始まる傾向が強いと学びました。またAI生成のSF小説を読むと、「西暦~年」で始まるケースが頻出します。しかし経験を積むにつれ、こうしたパターンを内面化し、認識できるようになっていくのです。

研究者らはまた、専門家が同様の方法でAI生成記事を検出できるよう訓練できるかどうかも検討した。Upworkで5人のアノテーターをAI生成コンテンツの検出に訓練し、その目視によるAI検出能力を非専門家と比較した。

これら2つのグループがAI生成テキストを識別する能力に差があることは予想されるが、研究者らが発見したのは著しい隔たりであった。非専門家はAI生成テキストの検出において偶然と同程度の精度しか示さない一方、専門家は非常に高い精度(平均90%以上の真陽性率)を示した。

特に興味深かったのは「専門家アノテーターだけが認識できる要素とは?」というセクションである。研究者らは参加者に、ある文章がAI生成であるか否かの判断理由を説明させ、その後そのコメントを分析した。

以下は論文から直接引用した分析です:

専門家と比べて非専門家は、特定の言語的特性に誤って固執しがちである。一例が語彙選択で、非専門家は「凝った」言葉や低頻度語種の使用をAI生成テキストの兆候と見なす。一方専門家は、AIが過剰に使用する特定の単語やフレーズ(例:testament、crucial)に精通している。 また非専門家は、人間が文法的に正しい文章を形成する可能性が高いと信じているため、長文をAIの仕業と見なす。しかし真実は逆で、人間はAIよりも文法的に正しくない文章や長文を使用する傾向が強い。 最後に、非専門家は中立的な口調で書かれたテキストをAIの産物と見なす傾向があり、これが多くの誤検知を引き起こす。なぜなら、形式的な人間の文章もまた中立的な口調であることが多いからである。」(ラッセル、カルピンスカ、アイヤー、2025年)

付録では、著者らがChatGPTで頻繁に使用される「AI用語集」の一覧を提供しています。これは最近Pangramダッシュボードでリリースした機能で、AIが頻繁に使用するフレーズをハイライト表示します!

私たちの経験では、多くの人々がAIは洗練された「凝った」語彙を使うと考えているにもかかわらず、実際にはAIはむしろ陳腐な比喩表現を多用し、往々にして意味をなさない傾向にあることが分かっています。ざっくり言えば、大規模言語モデル(LLM)は、賢く見せようと努力している人間に似ていますが、実際には単に「賢く聞こえるだろう」と彼らが考えているフレーズを使っているだけなのです。

AI検出器の先端モデルに対する頑健性

パングラムによく寄せられる質問の一つは、最先端モデルにどう対応しているのかという点です。言語モデルが進化すれば、パングラムは機能しなくなるのでしょうか?OpenAIのような最先端研究所との追いかけっこで、彼らに追い抜かれてしまうのでしょうか?

研究者たちもこの点を疑問に思い、これまで公開された中で最も先進的なモデルであるOpenAIのo1-proに対し、いくつかのAI検出手法の性能を検証した。

研究者らは、Pangramがo1-pro出力の検出において100%の精度を達成したことを確認しました。さらに「人間化」されたo1-pro出力(これについては後ほど説明します)の検出においても、96.7%の精度を維持しています!対照的に、他の自動検出器はいずれも、基本のo1-pro出力において76.7%の精度すら達成できていません。

パングラムはなぜこのように一般化できるのか?結局のところ、研究当時、我々の訓練データセットにはo1-proデータすら存在していなかったのだ。

深層学習モデル全般と同様に、我々はスケールと演算能力の力を信じています。まず、LLM(大規模言語モデル)自体と同様に、膨大な訓練コーパスで事前学習された強力なベースモデルから始めます。次に、スケールを前提としたデータパイプラインを構築しました。Pangramは1億件の人間が書いた文書からなる訓練コーパスから微妙なパターン認識を実現します
私たちは単なるエッセイやニュース、レビュー用のデータセットを構築するだけではありません。存在するあらゆる人間が書いたデータを可能な限り広範に収集し、モデルが最高品質かつ最も多様なデータ分布から学習し、あらゆる種類の人間の文章について理解できるように努めています。この汎用的なAI検出アプローチは、テキスト領域ごとにモデルを構築する専門的なアプローチよりもはるかに効果的であることが判明しています。

当社の極めて大規模かつ高品質な人間データセットを補完するのが、合成データパイプラインとアクティブラーニングに基づく検索アルゴリズムです。アルゴリズム用のAIデータ源として、網羅的なプロンプトライブラリと主要なオープンソース/クローズドソースAIモデルを全て活用し、合成データを生成します。技術報告書で詳述した合成ミラープロンプトと、データプール内で最も誤差の大きい例を特定するハードネガティブマイニングを活用します。これにより人間データと極めて類似したAI例を生成し、誤差が完全に消失するまでモデルを再学習させます。この手法により、モデルの偽陽性率と偽陰性率を極めて効率的にゼロまで低減できます。

端的に言えば、我々の一般化能力は、事前学習データの規模、合成データ生成に用いるプロンプトとLLMの多様性、そして能動的学習とハードネガティブマイニング手法によるデータ効率に由来する。

さらに、我々は優れた分布外性能を追求するだけでなく、一般的なLLMの多くが可能な限り分布内性能を発揮するよう努めています。そのため、最新のモデルからデータを取得する堅牢な自動化パイプラインを構築し、新LLMがリリースされ次第直ちにトレーニングを開始し、常に最新の状態を維持できるようにしています。 異なるモデル間での性能バランスを取るトレードオフではないことが判明しています。新しいLLMをトレーニングセットに導入するたびに、モデルの汎化性能が向上することが確認されています。

現在のシステムでは、モデルの性能が向上するにつれて検出が難しくなっているとは認識していません。多くの場合、次世代モデルは実際には検出が容易です。例えば、Claude 3のリリース時にはClaude 2よりも正確に検出できたことが確認されています。

言い換え攻撃と人間化攻撃

最近のブログ記事シリーズでは、AIヒューマナイザーの概念を説明するとともに、AI生成テキストのヒューマナイズ性能を大幅に向上させたモデルを公開しました。第三者がo1-pro記事のヒューマナイズデータセットを用いて当社の主張を検証した結果が早くも確認でき、大変喜ばしく思っております。

人間化されたo1-proテキストにおいて、我々は96.7%の精度を達成した。一方、次に優れた自動モデルは人間化されたテキストのわずか46.7%しか検出できない。

また、GPT-4oで文ごとに言い換えられたテキストについても、100%正確です。

結論

独立したAI検出能力調査において、Pangramが優れた性能を発揮したことを大変嬉しく思います。学術研究を支援できることを常に喜ばしく思っており、当社の検出器を研究したいと考えるあらゆる研究者に対し、オープンアクセスを提供しています。

自動検出ツールの性能評価に加え、AI検出の「説明可能性」と「解釈可能性」にも取り組む研究が始まっていることに期待しています。単にAI生成かどうかだけでなく、その理由を明らかにする研究です。これらの成果が教師や教育関係者が目視でAI生成テキストを見分ける手助けとなる方法、そしてこの研究をさらに説明性の高い自動検出ツールに組み込む計画について、今後さらに詳しくお伝えしていく予定です。

詳細については、当社ウェブサイトpangram.comをご覧いただくか、info@pangram.com までお問い合わせください。

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。