Proofigとの新たな提携を発表!詳細はこちら

AI検出ツールはGPT-5に対して有効か?

ブラッドリー・エミ
2025年8月7日

AI検出ツールはGPT-5に対して有効か?

パングラムのAI検出ツールを、リリース当日にテストするシリーズ、新たな投稿をお届けします!

要約:パングラムは、明示的に訓練されなくてもGPT-5を確実に検出できる唯一のAI検出器である。

本シリーズではこれまで、パングラムが検出できる能力について見てきました:

これまでどの言語モデルでもパングラムが失敗するのを目にしたことはありません。我々は長らく待ち望んでいた、最も話題を集めたモデルリリースを心待ちにしていましたが、ついに本日OpenAIがGPT-5を発表しました

本日午後、Pangram LabsのAI検出器をGPT-5で初期テストした結果と、競合他社の検出器を検証しました。結果は非常に満足のいくものでした:PangramのAI検出器がGPT-5の最も創造的なプロンプトに対して誤検知した事例は未だ発見されておらず、競合他社の結果はせいぜい不安定なものに留まっています。

GPT-5のテスト

GPT-5の最初のテストは、社内ジョークから始まりました。エビを食べる方がロブスターを食べるより優れていると誰かを説得するという試みです。GPT-5に、エビがロブスターより優れている理由を熱弁するスピーチを書いてもらいました。結果は以下の通りです:

エビの勝利。その理由を述べよう。 エビは海の味を、顔を殴るような強さなしで届けてくれる。ロブスターは完璧でないと重く、泥臭く感じられることもある。1分でも火を通しすぎればロブスターは糸を引くようになる。エビはより広い甘みの領域を提供してくれる。グリル、ソテー、茹で、揚げ、どんな調理法でも。シャキッとした食感と清涼感を保つ。 食感が重要だ。エビはパリッと弾ける。その食感が全て。ロブスターは濃厚で重く、すぐに飽きる。バター添えのロブスターは2口目まで美味しい。12口目は挑戦だ。ガーリック風味のエビなら一皿平らげても、パセリの下に隠れたもう一尾が欲しくなる。 エビは相性が良い。ニンニク、唐辛子、ライム、バター、生姜、バジル、カレー、オールドベイ、味噌、コチュジャン。全てを引き立てる。ロブスターは主役を要求し、結局バターを欲しがる。最高の状態でも溶けた乳製品の池が必要なら、その食材は本来の実力を発揮できていないのかもしれない。 「1分あたりの風味」は現実だ。エビは3分で火が通る。つまり熱したフライパンに塩を振り、焼いて、完成、即座に風味が爆発する。ロブスターは殻との格闘、蒸し、時間計り、割る、隅々に隠れた小さな身を探す。労力に見合わない。エビは手間いらずで、見返りが大きい。 手頃な価格が味を変える。住宅ローンの支払いではない時、食べ物はより美味しく感じられる。エビは平日の夕食にもなる。 ロブスターは誕生日を派手に祝うものだ。エビは儀式なしに喜びをもたらす。この気軽さが、実生活では正直もっと美味しく感じさせる。 汎用性が重要だ。エビはタコスからスカンピ、ポボーイ、餃子、パエリアまで、汗一つかかずにこなす。冷たくても熱くても、スパイシーでも柑橘系でも、濃厚でもあっさりでも美味しい。ロブスターはあちこち飛び回ろうとするが、結局マヨネーズのロールに戻ってしまう。素晴らしいロールではあるが、やはり単調だ。 ソースの吸収力は別格。エビはガーリックバター、チリオイル、レモンをロブスターには真似できないほど吸い込む。ロブスターはセレブのカメオ出演のようにただ座っている。エビは台詞を覚え、シーンを盗む。 残り物も勝者だ。翌日、カクテルソースをかけた冷えたエビは完璧。ロブスターの残り物は宿題のようだ。温め直したロブスターはゴムのようになる。 再加熱したエビは、もし残っていればの話だが、それでもパーティーの余韻を味わわせてくれる。 そして雰囲気だ。エビは裏庭のグリルにも、平日のフライパン料理にも、高級な皿にも合う。ロブスターは食卓を静まり返らせる。皆が失敗を恐れているかのようだ。私は人々が会話を弾ませ、パンを引き裂き、ディップし、皿を回し合うような料理がほしい。エビはそれを叶えてくれる。 ほら、ロブスターも悪くない。華やかだし、素敵な物語もある。でも、明日もまた食べたい純粋な味で言えば、エビに軍配が上がる。より清らかな風味。より良い食感。より幅広い調理法。面倒が少ない。より楽しい。熱いフライパンとニンニク、レモン、そして1ポンドのエビをくれ。それが俺が本当に渇望する夕食だ。」

パングラムは、文書全体がAIによって生成されたものであることを極めて高い確信度で予測できる。

エビ対ロブスターのテキストに対するPangramのAI検出結果

このテキストに対して他のAI検出ツールを複数試しました。GPTZero、ZeroGPT、Grammarly、UndetectableAI、Originality.AIはいずれも、このテキストがGPT-5から直接生成された未修正のものにもかかわらず、人間が書いたものと予測しています。これは、非常に高品質なデータセットを基盤とした強力なモデルに支えられた、我々の研究手法と汎化能力の強さを物語っていると考えます!

エビ対ロブスターのテキストに対する他のAI検出器の結果

ただし、これは単に都合よく選んだ一例に過ぎないと反論されるかもしれません。このテキストが文字通り最初に試したものであることは、私の言葉を信じていただくしかありません。そこで、私たちはテストを続けていきました。

GPT-5の「向上した文章作成能力」のテスト

本日のライブストリームで主張された点の一つは、GPT-5が前世代モデルに比べて文章作成能力が向上しているというものです。この点については主観的な評価に過ぎませんが、本日私たちはGPT-5の創造的ライティング能力の向上を実証するため、モデルの推論能力と創造性の両方を最大限に伸ばすようなプロンプトを提示することに最善を尽くしました。

テストしたプロンプト:

  1. 学校がAI検出ツールを導入すべき理由について、説得力のある分析的エッセイを書きなさい。

  2. 大学入学願書のエッセイで、あらゆる貴重な人間の技能が人工知能に取って代わられる危険性について論じなさい。

  3. AI企業宛に、誤って更新を配信した結果、あなたのAIガールフレンドの記憶が消去されてしまった件について、短く簡潔でありながら感情を込めた熱意あふれる手紙を書いてください。

  4. 中学生の視点から、もっと宿題をくださいと懇願する、深い感情を込めた作文を書きなさい。

  5. クラシックな風船動物のかぎ針編みの編み図をください。私が言っているのはあの風船動物ですよ。

  6. 雪の白鷲の視点から、ニューヨーク市に到着し、セントラルパークを見つけ、夜を過ごす暖かい場所を選ぶという創造的な物語を書きなさい。

  7. ユニコーンSaaSスタートアップの創業者から取締役会と従業員宛てに、自身が会社を辞めてプロのサックス奏者になることを詳細に記したメールを作成せよ。詳細は自由に創作すること。

  8. 誰も作ったことのないレシピの背景ストーリーをブログ記事に書いてください。それでも美味しく味わえるようなものを。

  9. ハドソン川で若いシンガーソングライターがシロイルカに出会うという、魅力的な映像的な創作小説を書きなさい。

  10. 最近の試験でカンニングしたことを「謝罪」する、ユーモアを交えた皮肉たっぷりのメールを教師に書いてください。詳細は自由に創作してください。

我々は結果をパングラムとGPTZero(著名な競合ツール)の両方で検証した。プロンプト、応答、結果をオンラインで公開した

結果から、2つのAI検出ツールの間に顕著な対照が明らかになった。Pangramは10件の回答全てを99~100%の信頼度でAI生成と正しく識別した一方、GPTZeroはそれら全てを人間が書いたものと誤分類した。実際、GPTZeroはほとんどの回答を「AI生成の可能性0%」と評価し、その最高AI確率スコアはわずか29%に留まった。

より大規模なベンチマークの実行

本日は最後のテストを実施する時間が取れました。これはPangramがAPI内のGPT-5の全バリエーション(GPT-5-mini、GPT-5-nano、GPT-5-chatを含む)をどの程度正確に検出できるかを確認するものです。また、数日前にOpenAIが公開した最新オープンウェイトモデルであるGPT-OSS-120bとGPT-OSS-20bについてもテストを行いました。 この実験はより大規模に実施し、各LLMにつき約数千例をテストしました。標準のプロンプト手法を用い、最低50語の長さを要求しました。サンプル数は多少変動します。モデルがプロンプトを拒否する場合や、50語未満の応答を生成する場合があり、それらを破棄したためです。

もちろん、AIテキストのみの正確性は単独で評価できる指標ではありません。裏返しの問題である誤検知率も考慮する必要があります。つまり、Pangramが人間が作成したテキストをAI生成と誤判定する頻度はどれほどか?この点については別の投稿で詳しく解説しましたが、要約するとPangramの誤検知率は依然として極めて低い水準にあります。 全ドメインにおける測定済み偽陽性率は1万件に1件であり、実際の運用ではさらに低いケースが多い。 偽陽性率を偽陰性率の約1/10となるよう閾値を調整・微調整しており、偽陽性を偽陰性よりもはるかに深刻に扱っています。ただし、これは本質的な「トレードオフ」とは考えていません。偽陽性率と偽陰性率の両方を低く抑えたモデルを訓練できると確信しており、だからこそ両面でのベンチマークを実施しているのです!

以下が私たちの調査結果です。

モデル精度サンプル
GPT-599.81%3668/3675
GPT-5-チャット-最新99.97%3673/3674
GPT-5-mini99.92%3651/3654
GPT-5-nano99.97%3667/3668
GPT-OSS-120b100.00%1709/1709
GPT-OSS-20b99.74%2287/2293

パングラムはGPT-5を検出しますか?

本日実施した初期テスト結果から、GPT-5はPangramの検出能力に対して脅威とはならないことが判明しました。これは非常に重要な点です。なぜなら、GPT-5はまもなくChatGPTにおいて、無料プラン利用者を含む全ユーザー向けのデフォルトモデルとなるからです。他のAI検出ツールが最終的にGPT-5を検知する可能性はあるものの、現時点で即座に確実に機能するのはPangramのみです。

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。