Proofigとの新たな提携を発表!詳細はこちら

パングラムはGPTZeroと比べてどうですか?

ブラッドリー・エミ
2026年1月22日

現在のAI検出市場には、いくつかの大手プレイヤーが存在します。ご存知かもしれませんが、Pangram、GPTZero、Turnitin、ZeroGPTなどが挙げられます。

これらの企業の多くは定期的にモデルを更新し、性能に関する数値を公開しています。最近、GPTZeroは夏季モデル更新を実施し、様々な新モデルにおける性能の新たな数値を発表しました。本ブログ記事では、GPTZeroの新モデルとPangramのAI検出(最新のGPT-5モデルを含む)の性能を比較します

パングラム対GPTZero:公表された数値

モデルパングラム検出率GPTZeroの検出率より優れた検出器
GPT-599.81%95.0%パングラム
GPT-5-チャット-最新99.97%未検証該当なし
GPT-5-mini99.92%92.2%パングラム
GPT-5-nano99.97%96.1%パングラム
GPT-OSS-120b100.00%未検証該当なし
GPT-OSS-20b99.74%未検証該当なし
GPT4.199.48%96.8%パングラム
GPT4.1-mini99.94%98.7%パングラム
o399.86%89.9%パングラム
o3-mini100.00%98.4%パングラム
ジェミニ 2.5 プロ99.91%95.7%パングラム
ジェミニ2.5フラッシュ99.75%98.2%パングラム
クロード・ソネット499.91%99.1%パングラム

注:GPTZeroは内部評価用データセットを一般公開していないため、これらの数値は全く同一の文書に基づくものではありません。さらに、GPTZeroはテスト対象文書数を公表していないため、数量比較も不可能です。ただし、Pangramの性能数値については、各モデルごとに数千件の文書で評価を実施し、多様な分野やプロンプト方式を網羅することで実環境での使用をシミュレートしました。

さらに、Pangramの精度はAI文書を最も多く検出することに留まりません。Pangramは偽陽性率の低さにおいても市場をリードしています。人間が書いた文書をAI生成と誤検出しないことは、当社にとって最優先事項です。以下にPangramとGPTZeroの報告された偽陽性率の差異を示します:

パングラムGPTゼロ
偽陽性率(%)0.01%1%
偽陽性率(#)約1万件に1件約100件に1件

GPTZeroの偽陽性率に関するブログ記事

ここでは、GPTZeroの性能が偽陽性率(FPR)1%を示していることが確認できる。

研究は何を示しているのか?パングラム対GPTZero

パングラムとGPTZeroは査読付きAI研究論文においても直接対決している。このことはメリーランド大学の最新研究ChatGPTを頻繁に文章作成に利用する人々は、AI生成テキストを正確かつ確実に検出できるに最もよく表れている。本研究は、人間の専門家アノテーターが人間とAI生成テキストの違いを分類する能力を調査したものである。

本研究の一環として、人間のアノテーターは市販およびオープンソースの検出器と比較評価された。Pangramは個々の人間による検出器よりも優れた性能を示し、GPTZeroを含む全ての商用代替品よりも優れた結果を達成した。

GPT-4oクロード
パングラム100%100%
GPTゼロ100%97.6%
注釈者196.7%100%
アノテーター296.7%100%
アノテーター386.7%80%
アノテーター490.0%96.7%
アノテーター593.3%93.3%

多言語対応

Pangramの主力モデルとGPTZeroの違いはそれだけではない。両モデルとも「多言語対応」であり、英語以外の言語でもAIを検出できる。Pangramはインターネット上で上位20言語すべてに対応している。GPTZeroは英語、フランス語、スペイン語をサポートする。各モデルがテストされた言語は以下の通り:

言語パングラム偽陽性率(FPR)GPTZero 偽陽性率 (FPR)パングラムAI検出率GPTZero AI検出率
スペイン語0.00%5.6%100.0%96.4%
フランス語0.00%3.1%100.0%93.1%
アラビア語0.10%未検証100.0%未検証
チェコ0.00%未検証99.89%未検証
ドイツ語0.00%未検証99.68%未検証
ギリシャ語0.00%未検証99.79%未検証
ペルシャ語0.00%未検証100.0%未検証
ヒンディー語0.00%未検証99.58%未検証
ハンガリー語0.10%未検証99.05%未検証
イタリア語0.00%未検証100.0%未検証
日本語0.00%未検証100.0%未検証
オランダ語0.10%未検証100.0%未検証
ポーランド語0.00%未検証100.0%未検証
ポルトガル語0.00%未検証100.0%未検証
ルーマニア語0.10%未検証100.0%未検証
ロシア語0.00%未検証100.0%未検証
スウェーデン語0.00%未検証99.89%未検証
トルコ語0.00%未検証99.79%未検証
ウクライナ人0.00%未検証99.89%未検証
ウルドゥー語0.00%未検証98.84%未検証
ベトナム語0.00%未検証99.89%未検証
中国語0.00%未検証99.89%未検証

多言語テキストにおけるPangramのパフォーマンスに関する詳細については、こちらのブログ記事をご覧ください。

ESLパフォーマンス

さらに、両モデルともESL(英語を第二言語とする)性能に細心の注意を払って訓練されています。これは、AI検出器が非ネイティブ英語話者に偏見を持つ可能性があるという広く知られた懸念があるためです。GPTZeroとPangramの両方が、特にESLテキストに関する結果を公表しています。以下の比較をご覧ください:

偽陽性率サンプルサイズ
パングラム0.032%25,021
GPTゼロ1.1%91

パングラムのESLテキストへのアプローチについて詳しく知りたい方は、こちらのブログ記事をご覧ください:https://www.pangram.com/blog/how-accurate-is-pangram-ai-detection-on-esl

未発表モデルとGPT-5

AI検出ソリューションを検討する上で、もう一つの懸念事項は未公開モデルに対する性能である。AI競争が激化する中、大手AI研究所から新興企業までが重要なモデルを次々と発表している。AI検出ソリューションは、直接トレーニングできなかった可能性のあるモデルに対しても、継続的に正確な結果を提供できることが重要だ。

GPT-5の最近のリリースは、これを解明する絶好の機会となりました!新モデル公開から数時間以内に、Pangramチームは様々なプロンプトタイプでGPTZeroとPangramの性能をテストしました。その結果は以下の通りです:

パングラムGPTゼロ
文書1100%2%
文書2100%0%
文書3100%0%
文書4100%0%
文書5100%9%
文書699%0%
文書7100%0%
文書8100%0%
文書9100%29%
文書10100%0%
文書11100%10%

注:GPTZeroはその後、GPT-5でより優れた性能を発揮すると主張するモデル更新をリリースしました!当初の比較の詳細については、こちらのブログ記事をご覧ください。また、ユーザーの皆様には、任意の時点での性能比較のため、ご自身でテストを実施されることをお勧めします。

結論

結局のところ、PangramはAI生成コンテンツを検出する上で、堅牢かつ信頼性の高い選択肢であり続けています。教育出版コンテンツモデレーション、あるいはさらにユニークなニーズであっても、正確かつ公平なAI検出を提供します。詳細はブログでご覧いただくか、info@pangram.com までお問い合わせください。

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。