Proofigとの新たな提携を発表!詳細はこちら
現在のAI検出市場には、いくつかの大手プレイヤーが存在します。ご存知かもしれませんが、Pangram、GPTZero、Turnitin、ZeroGPTなどが挙げられます。
これらの企業の多くは定期的にモデルを更新し、性能に関する数値を公開しています。最近、GPTZeroは夏季モデル更新を実施し、様々な新モデルにおける性能の新たな数値を発表しました。本ブログ記事では、GPTZeroの新モデルとPangramのAI検出(最新のGPT-5モデルを含む)の性能を比較します。
| モデル | パングラム検出率 | GPTZeroの検出率 | より優れた検出器 |
|---|---|---|---|
| GPT-5 | 99.81% | 95.0% | パングラム |
| GPT-5-チャット-最新 | 99.97% | 未検証 | 該当なし |
| GPT-5-mini | 99.92% | 92.2% | パングラム |
| GPT-5-nano | 99.97% | 96.1% | パングラム |
| GPT-OSS-120b | 100.00% | 未検証 | 該当なし |
| GPT-OSS-20b | 99.74% | 未検証 | 該当なし |
| GPT4.1 | 99.48% | 96.8% | パングラム |
| GPT4.1-mini | 99.94% | 98.7% | パングラム |
| o3 | 99.86% | 89.9% | パングラム |
| o3-mini | 100.00% | 98.4% | パングラム |
| ジェミニ 2.5 プロ | 99.91% | 95.7% | パングラム |
| ジェミニ2.5フラッシュ | 99.75% | 98.2% | パングラム |
| クロード・ソネット4 | 99.91% | 99.1% | パングラム |
注:GPTZeroは内部評価用データセットを一般公開していないため、これらの数値は全く同一の文書に基づくものではありません。さらに、GPTZeroはテスト対象文書数を公表していないため、数量比較も不可能です。ただし、Pangramの性能数値については、各モデルごとに数千件の文書で評価を実施し、多様な分野やプロンプト方式を網羅することで実環境での使用をシミュレートしました。
さらに、Pangramの精度はAI文書を最も多く検出することに留まりません。Pangramは偽陽性率の低さにおいても市場をリードしています。人間が書いた文書をAI生成と誤検出しないことは、当社にとって最優先事項です。以下にPangramとGPTZeroの報告された偽陽性率の差異を示します:
| パングラム | GPTゼロ | |
|---|---|---|
| 偽陽性率(%) | 0.01% | 1% |
| 偽陽性率(#) | 約1万件に1件 | 約100件に1件 |
GPTZeroの偽陽性率に関するブログ記事
ここでは、GPTZeroの性能が偽陽性率(FPR)1%を示していることが確認できる。
パングラムとGPTZeroは査読付きAI研究論文においても直接対決している。このことはメリーランド大学の最新研究「ChatGPTを頻繁に文章作成に利用する人々は、AI生成テキストを正確かつ確実に検出できる」に最もよく表れている。本研究は、人間の専門家アノテーターが人間とAI生成テキストの違いを分類する能力を調査したものである。
本研究の一環として、人間のアノテーターは市販およびオープンソースの検出器と比較評価された。Pangramは個々の人間による検出器よりも優れた性能を示し、GPTZeroを含む全ての商用代替品よりも優れた結果を達成した。
| GPT-4o | クロード | |
|---|---|---|
| パングラム | 100% | 100% |
| GPTゼロ | 100% | 97.6% |
| 注釈者1 | 96.7% | 100% |
| アノテーター2 | 96.7% | 100% |
| アノテーター3 | 86.7% | 80% |
| アノテーター4 | 90.0% | 96.7% |
| アノテーター5 | 93.3% | 93.3% |
Pangramの主力モデルとGPTZeroの違いはそれだけではない。両モデルとも「多言語対応」であり、英語以外の言語でもAIを検出できる。Pangramはインターネット上で上位20言語すべてに対応している。GPTZeroは英語、フランス語、スペイン語をサポートする。各モデルがテストされた言語は以下の通り:
| 言語 | パングラム偽陽性率(FPR) | GPTZero 偽陽性率 (FPR) | パングラムAI検出率 | GPTZero AI検出率 |
|---|---|---|---|---|
| スペイン語 | 0.00% | 5.6% | 100.0% | 96.4% |
| フランス語 | 0.00% | 3.1% | 100.0% | 93.1% |
| アラビア語 | 0.10% | 未検証 | 100.0% | 未検証 |
| チェコ | 0.00% | 未検証 | 99.89% | 未検証 |
| ドイツ語 | 0.00% | 未検証 | 99.68% | 未検証 |
| ギリシャ語 | 0.00% | 未検証 | 99.79% | 未検証 |
| ペルシャ語 | 0.00% | 未検証 | 100.0% | 未検証 |
| ヒンディー語 | 0.00% | 未検証 | 99.58% | 未検証 |
| ハンガリー語 | 0.10% | 未検証 | 99.05% | 未検証 |
| イタリア語 | 0.00% | 未検証 | 100.0% | 未検証 |
| 日本語 | 0.00% | 未検証 | 100.0% | 未検証 |
| オランダ語 | 0.10% | 未検証 | 100.0% | 未検証 |
| ポーランド語 | 0.00% | 未検証 | 100.0% | 未検証 |
| ポルトガル語 | 0.00% | 未検証 | 100.0% | 未検証 |
| ルーマニア語 | 0.10% | 未検証 | 100.0% | 未検証 |
| ロシア語 | 0.00% | 未検証 | 100.0% | 未検証 |
| スウェーデン語 | 0.00% | 未検証 | 99.89% | 未検証 |
| トルコ語 | 0.00% | 未検証 | 99.79% | 未検証 |
| ウクライナ人 | 0.00% | 未検証 | 99.89% | 未検証 |
| ウルドゥー語 | 0.00% | 未検証 | 98.84% | 未検証 |
| ベトナム語 | 0.00% | 未検証 | 99.89% | 未検証 |
| 中国語 | 0.00% | 未検証 | 99.89% | 未検証 |
多言語テキストにおけるPangramのパフォーマンスに関する詳細については、こちらのブログ記事をご覧ください。
さらに、両モデルともESL(英語を第二言語とする)性能に細心の注意を払って訓練されています。これは、AI検出器が非ネイティブ英語話者に偏見を持つ可能性があるという広く知られた懸念があるためです。GPTZeroとPangramの両方が、特にESLテキストに関する結果を公表しています。以下の比較をご覧ください:
| 偽陽性率 | サンプルサイズ | |
|---|---|---|
| パングラム | 0.032% | 25,021 |
| GPTゼロ | 1.1% | 91 |
パングラムのESLテキストへのアプローチについて詳しく知りたい方は、こちらのブログ記事をご覧ください:https://www.pangram.com/blog/how-accurate-is-pangram-ai-detection-on-esl
AI検出ソリューションを検討する上で、もう一つの懸念事項は未公開モデルに対する性能である。AI競争が激化する中、大手AI研究所から新興企業までが重要なモデルを次々と発表している。AI検出ソリューションは、直接トレーニングできなかった可能性のあるモデルに対しても、継続的に正確な結果を提供できることが重要だ。
GPT-5の最近のリリースは、これを解明する絶好の機会となりました!新モデル公開から数時間以内に、Pangramチームは様々なプロンプトタイプでGPTZeroとPangramの性能をテストしました。その結果は以下の通りです:
| パングラム | GPTゼロ | |
|---|---|---|
| 文書1 | 100% | 2% |
| 文書2 | 100% | 0% |
| 文書3 | 100% | 0% |
| 文書4 | 100% | 0% |
| 文書5 | 100% | 9% |
| 文書6 | 99% | 0% |
| 文書7 | 100% | 0% |
| 文書8 | 100% | 0% |
| 文書9 | 100% | 29% |
| 文書10 | 100% | 0% |
| 文書11 | 100% | 10% |
注:GPTZeroはその後、GPT-5でより優れた性能を発揮すると主張するモデル更新をリリースしました!当初の比較の詳細については、こちらのブログ記事をご覧ください。また、ユーザーの皆様には、任意の時点での性能比較のため、ご自身でテストを実施されることをお勧めします。
結局のところ、PangramはAI生成コンテンツを検出する上で、堅牢かつ信頼性の高い選択肢であり続けています。教育、出版、コンテンツモデレーション、あるいはさらにユニークなニーズであっても、正確かつ公平なAI検出を提供します。詳細はブログでご覧いただくか、info@pangram.com までお問い合わせください。