Proofigとの新たな提携を発表!詳細はこちら
パングラムラボのAI生成テキスト分類器のトレーニングプロセス
パングラム・ラボでは、インターネットが不正確で欺瞞的、低品質なコンテンツで溢れるのを防ぐため、最高のAIテキスト検出モデルを構築しています。大規模言語モデル(LLM)が普及する世界において、人間は真実を見極めるための最良のツールキットを必要とするでしょう。私たちはそのニーズに応える適切な技術を提供したいと考えています。
パングラム・ラボは、スパムや不正コンテンツに悪用される可能性のあるAI生成テキストを検出する本格的な分類器を開発しました。当社のモデルは既存の代替技術と比べてどれほど優れているのでしょうか?本ブログ記事では、当社初の公開技術ホワイトペーパーと共に、モデル性能に関する包括的な分析結果を提示します。
このブログ記事では、いくつかのトピックを取り上げます:
方法論を含むより技術的な詳細については、パングラムAI生成テキスト分類器に関する技術報告書をご覧ください。
約2000件の文書を用いて競合ベンチマークを実施し、総合精度、偽陽性インスタンス、偽陰性インスタンスを含む主要な精度指標を測定した。
Our text classifier outperforms academic methods and shows significantly lower error rates in a comprehensive benchmark against other available AI text detection methods. Our model demonstrates 99.85% accuracy with 0.19% false positive rate across thousands of examples across ten different categories of writing and eight commonly used large language models. Other methods fail on more capable LLMs such as GPT-4 (<=75% accuracy) while Pangram Labs sustains 99-100% accuracy across all language models tested.
全体的な精度比較
大規模言語モデル(LLM)は、AI能力が転換点に達した2023年にChatGPTなどの人気が爆発的に高まった。AIアシスタントを支えるLLMは、人間のように説得力のある口調で質問に答え、ブレインストーミングを行い、コンテンツを作成できる。これにより有益な成果も生まれている——情報はかつてないほど入手しやすくなり、アシスタントが雑務を代行することで時間を節約できる。 しかし、誰でもほとんど労力をかけずに人間らしい文章を生成できるようになったことは、それ自体に問題を抱えています。スパマーはフィルタリングが困難なメールを作成できます。オンラインマーケットプレイスの販売者は、本物そっくりのレビューを数分で何千件も生成できます。悪意のある者はソーシャルメディアに参入し、LLMを活用した何千ものボットで世論を操作できるのです。
残念ながら、こうした社会的リスクはLLMレベルでは軽減できません。言語モデルは、リクエストが正当なものか、スパマーによって生成された数千ものリクエストの一つかを判断できません。このため、アプリケーション層でのコンテンツフィルタリングが必要となります。人間のための空間を人間のものとして保つために。
この分野の仕事には多くの懐疑的な意見が寄せられています。問題が解決不可能だ、AI検出器は「機能しない」と証明されている、あるいはプロンプト操作で回避できるといった主張です。仮に現在可能だとしても、来年には困難になり、汎用人工知能(AGI)が登場する頃には不可能になるだろうとも言われています。
私たちの主張は少し異なります。この問題は解決可能であるだけでなく、解決が不可欠であると確信しています。ユーザーが利用し信頼できるものを構築するために、どれほど困難であろうと、どれほどの時間を費やす必要があろうと問題ではありません。私たちの取り組みがなければ、インターネットがAIスパマーに占領されるのは時間の問題です。人間の声は雑音に埋もれてしまうでしょう。
当社にとって問題解決を確実にするには、評価セットの難易度を引き続き高めることが不可欠です。初期の評価では100%精度を達成するのは容易でしたが、これが実世界の精度を反映していないことはすぐに明らかになりました。より困難な評価を構築することで、改善を客観的に測定できるようになります。 現在のベンチマークは実世界のスパマーが生成するテキストよりやや難易度が高く、ほぼ限界値に達していると確信しています。新たな数値を提示する際、他手法の精度が低下したように見えるかもしれませんが、実際にはより高度な評価セットを導入し、最先端AIが本物と見分けがつかないテキスト生成の限界に挑戦する中で、我々は依然として99%の精度で検出することを目標としています。
問題は完全には解決されないだろうが、LLMの能力がますます高まる中で遅れを取らないよう、着実に前進を続ける必要がある。これが我々が選んだ道であり、最後まで追求し続けるものである。
技術報告書において、当社はPangram Labsを主要なAI検出ツール2種ならびに2023年時点の最先端学術的AI検出手法と比較しました。
比較します:
当社のベンチマークには1,976の文書が含まれており、その半数は人間が執筆したもので、残りの半数はChatGPTやGPT-4を含む最も人気のある8つの大規模言語モデル(LLM)によって生成されたものです。
全体的な精度比較
これらの数字の意味について簡単に説明します:
偽陽性率を具体的に示すと――9%とは、人間が作成した文書11件ごとに1件がAI生成と判定されることを意味する。2%の偽陽性率では、人間が作成した文書50件ごとに1件がAI生成と判定される。そして0.67%とは、人間が作成した文書150件ごとに1件がAI生成と判定されることを意味する。
同様に、10%の偽陰性率は10件に1件のAI文書が検出されずに通過することを意味し、1.4%の偽陰性率は70件に1件のAI文書が検出されずに通過することを意味する。
これらの結果が意味するところを考えてみよう。9%の偽陽性率を持つ検知モデルは信頼できない——さもなければ虚偽の告発が蔓延するだろう。また10%の偽陰性率を持つ検知モデルでは、AIスパムが大量に通過してしまうため、いかなる攻撃が起きてもユーザーは依然としてスパムに埋もれることになる。
当社のベンチマークは、テキストドメインと原LLMという2つの異なる軸で分類されています。「テキストドメイン」または単に「ドメイン」とは、特定の文章カテゴリを指す方法です。例えば、中学生の作文は科学論文とは全く異なり、科学論文はメールとはまた全く異なります。結果を異なるドメインに分類することで、どの領域で良好な結果を出しているか、また改善に注力すべき領域をより包括的に把握できます。
テキストドメインごとの精度
結果から、Pangram Labsが評価対象の全10分野においてGPTZeroおよびOriginalityを上回ることが示された。
ドメインの一つである電子メールは、パングラム・ラボがトレーニングデータに電子メールを含めていないにもかかわらず、特に優れた結果を示しています。電子メールにおける当社の性能は、LLMが生成し得るほとんどの文章カテゴリに汎化できる堅牢なモデルを訓練した結果に完全に起因しています。
AI文書が正しく分類されました、原点LLMによる
LLMの起源別分析からは別の傾向が浮かび上がる。競合するAI検出モデルは、性能の低いオープンソースモデルでは高い精度を発揮するが、ChatGPT(gpt-3.5-turbo)では精度が低下し、OpenAIの最先端LLMであるGPT-4では著しく苦戦する。実環境で最も広く使用されているGPT 3.5 TurboとGPT-4の各バージョンを複数評価した。
我々は、GPT-4テキストを確実に検出できる唯一のモデルであり、テストした他の全てのモデルにおいても競合他社を上回る性能を発揮することを確認した。
興味深い観察結果として、当社の競合モデルはクローズドソースのGPTやGeminiモデルよりもオープンソースモデルで遥かに優れた性能を発揮します。 我々の仮説では、これはパープレクシティとバースト性という特徴量への過度の依存が原因であると考えられる。これらの特徴量は確かに有用だが、パープレクシティとバースト性を正確に計算できるのはオープンソースモデルに限られる。クローズドソースモデルでは近似値の推定しかできないのだ。これは我々の深層学習ベースのアプローチの価値を示している——パープレクシティのような脆弱な特徴量に依存せず、より微妙な潜在パターンを学習できるのである。
よく寄せられる質問の一つは、新しい言語モデルがリリースされた場合どうなるか?その出力検出のために各新モデルで学習が必要か?ということです。結論から言えば、必要ありません。OpenAIはここ数週間でLLMの新バージョンを2つリリースしましたが、これらの新LLMで一切学習を行わずに当社モデルを評価したところ、依然として良好な性能を発揮することが確認できました!
これらの新リリースはOpenAIが以前公開したバージョンと類似しています。そこで次に問うべきは、全く異なるモデルファミリーではどうなのか?という点です。この疑問に答えるため、我々の分類器がこれまで見たことのない多数のオープンソースモデルで評価を行いました。
オープンソースLLMによるパフォーマンス。Pangram Labsがトレーニング中に未見のもの。
なかなか素晴らしい!これは多くのオープンソースモデルがラマファミリーのモデルを起点としているか、類似のオープンソース訓練データセットを使用していることに起因する部分が大きいが、これにより全てのオープンソースモデルを個別に訓練しなくても、我々の汎化能力に確信を持てるようになる。
以上を踏まえ、当社のデータパイプラインは、LLM APIのリリースから数時間以内に新たなトレーニングセットを生成できるよう構築されています。ボトルネックとなるのはAPIのレート制限のみです。LLMが進化を続けていることは十分認識しており、汎用人工知能(AGI)に近づくにつれ、最新状態を維持し、最先端のAIエージェントさえも捕捉できる体制を整えることがますます重要になっていくでしょう。
これまでの研究では、市販のLLM検出器は一貫して非母語話者(ESL、すなわち第二言語としての英語)に対して偏見を持つことが判明している。これを検証するため、研究者らはTOEFL(外国語としての英語試験)のエッセイ91編をベンチマークとして用い、複数の検出器をテストした。
トレーニングセットからTOEFLエッセイ91件を除外し、Pangram Labsをベンチマークで評価した。ESLにおける偽陽性率を最小化する取り組みにより、TOEFLベンチマークでは偽陽性率0%を達成した。つまり、このベンチマークに含まれる人間によるエッセイは、AIによるものと誤分類されることはなかった。
TOEFLベンチマークの比較
AI生成コンテンツの検出は容易な作業ではない。我々はトランスフォーマーベースのアーキテクチャを用いた深層学習モデルを訓練し、2つの主要な手法を用いてモデルの精度を次のレベルに引き上げる。
トレーニングセット内のすべての文書は「人間」または「AI」のいずれかでラベル付けされています。機械学習では、これらの文書を「例」と呼びます。
公開データセットから学習用の人間の例を何百万件も入手できますが、同等のAIデータセットは存在しません。 この課題を解決するため、各人間の例文に「合成ミラー」を対応させます。これは人間の文書を基にAIが生成した文書を指す用語です。LLMに対し、同じトピック・同じ長さの文書を生成するようプロンプトします。例文のごく一部では、AI文書に多様性を持たせるため、LLMに人間の文書の最初の文から生成を開始させます。
初期段階で、モデルの学習に頭打ち状態に直面した。より多くの例を追加して訓練を試みたが、最終的にモデルが「飽和状態」にあることが判明した——それ以上の訓練例を追加してもモデルの性能は向上しなかった。
スケーリング則実験
この初期モデルの性能は満足のいくものではなかった——多くの領域で依然として1%を超える偽陽性率を示していた。私たちが発見したのは、単に例を増やすだけでは不十分で、より困難な例が必要だということだった。
我々は初期モデルを用い、公開データセット内の数千万件に及ぶ人間による例文をスキャンし、モデルが誤分類した最も困難な文書を特定した。次にこれらの文書に対して合成ミラーデータを生成し、訓練データセットに追加した。最後にモデルを再訓練し、このプロセスを繰り返した。
パングラムラボのAI生成テキスト分類器のトレーニングプロセス
このトレーニング手法により、偽陽性率を100分の1に低減し、自信を持って提供できるモデルを出荷することができました。
ドメイン別偽陽性率の表
この手法を合成ミラーを用いたハードネガティブマイニングと呼び、技術報告書でそのプロセスを詳細に解説している。
明らかに、これは私たちの旅の終わりではありません。パフォーマンスを次のレベルに引き上げるための新たなアイデアを数多く持っています。評価セットの改善を継続し、偽陽性率を百分率単位でより正確に追跡できるようにします。非英語圏の言語にも対応できるようモデルの拡張を計画しており、失敗ケースの理解と捕捉に取り組んでいます。今後の展開にご期待ください!
ご質問やご意見はありますか?info@pangram.com までご連絡ください!