製品の更新情報

AI検出ツールはGPT-5に対しても有効なのか？

ブラッドリー・エミ

2025年8月7日

目次

AI検出ツールはGPT-5に対しても有効なのか？
GPT-5のテスト
GPT-5の「向上した文章作成能力」を検証する
より大規模なベンチマークを実行する
パングラムはGPT-5を検知しますか？

AI検出ツールはGPT-5に対しても有効なのか？

『パングラム』のAI検出機能を、リリース当日にテストするシリーズ、今回もまたお届けします！

要約：Pangramは、GPT-5の検出用に明示的に学習させなくても、確実にGPT-5を検出できる唯一のAI検出ツールです。

このシリーズの前回の記事では、パングラムが検出できる以下の要素について見てきました：

これまでのところ、どの言語モデルにおいてもパングラムが失敗した例は一度もありません。私たちは、ここしばらくで最も注目を集めていたモデルのリリースを心待ちにしていましたが、本日ついにOpenAIからGPT-5が発表されました。

今日の午後、私たちはPangram LabsのAI検出ツールをGPT-5で初期テストした結果と、競合他社の製品をいくつか検証しました。その結果には非常に満足しています。GPT-5に対して私たちが作成した最も独創的なプロンプトに対して、PangramのAI検出ツールが誤検知したケースは今のところ見つかっておらず、競合他社の結果はせいぜいまちまちであると感じています。

GPT-5のテスト

GPT-5の最初のテストは、オフィス内の冗談から始まりました。それは、「エビを食べる方がロブスターを食べるより良い」と誰かを説得しようというものでした。私たちはGPT-5に、なぜエビを食べる方がロブスターを食べるより優れているのかについて、熱弁をふるうスピーチを書いてもらいました。その結果がこちらです：

「エビの勝ちだ。その理由はこうだ。エビは、強烈な風味を押し付けることなく、海の味を楽しませてくれる。ロブスターは、完璧に調理されていないと、重たくて少し泥臭い感じになることもある。たった1分でも火を通しすぎると、ロブスターは糸を引くような食感になってしまう。一方、エビは最適な状態が広い。グリル、ソテー、茹で、揚げ物……どんな調理法でも、プリプリとした歯ごたえとすっきりとした味わいを保ってくれる。食感は重要だ。エビはパリッとしている。その食感が全てだ。ロブスターは濃厚で重厚な味わいが特徴だが、すぐに飽きてしまう。バターを添えたロブスターなら2口なら最高だが、12口も食べると挑戦状を突きつけられた気分になる。ガーリック風味のエビなら一皿平らげても、パセリの下にもう一匹隠れていないか探したくなるほどだ。エビは他の食材との相性が抜群だ。ニンニク、唐辛子、ライム、バター、生姜、バジル、カレー、オールドベイ、味噌、コチュジャン。どれもエビが引き立ててくれる。ロブスターは主役を張るが、結局はバターを欲しがるだけだ。最高の状態にするために溶けた乳製品の海が必要なら、その食材自体が本来持つべき価値を十分に発揮できていないのかもしれない。「1分あたりの風味」は現実だ。エビは3分ほどで火が通る。つまり、熱したフライパン、塩、さっと焼く、完成、あっという間に風味が出る。ロブスターなら、殻との格闘、蒸し、時間管理、殻割り、奇妙な隅に隠れた小さな身を追い出す作業が必要だ。労力に見合うだけの見返りはない。エビはドラマチックさこそ少ないが、見返りは大きい。手頃な価格も味を変える。住宅ローンの支払いのような重荷でなければ、食べ物はより美味しく感じられる。エビなら平日の夕食にもなる。ロブスターは「誕生日ご馳走」と叫んでいる。エビは儀式なしに喜びをもたらす。その気取らない要素が、実生活では正直なところ、より美味しく感じさせる。幅広さが重要だ。エビはタコスからスカンピ、ポボーイ、餃子、パエリアまで、汗一つかかずにこなす。冷めても、熱々でも、スパイシーでも、柑橘系でも、濃厚でも、あっさりでも美味しい。ロブスターはあちこち飛び回ろうとするが、結局はマヨネーズを塗ったロールパンに戻ってしまう。素晴らしいロールパンだ。それでも単調だ。ソースの吸収力は格別だ。エビはガーリックバター、チリオイル、レモンの風味を、ロブスターにはできない方法でしっかりと吸い込む。ロブスターはまるでセレブのカメオ出演のようにただそこにいるだけ。エビは台詞を覚え、シーンをさらう。残り物もエビの勝ちだ。翌日、カクテルソースをかけた冷たいエビは完璧だ。ロブスターの残り物はまるで宿題のようだ。温め直したロブスターはゴムのように硬くなる。もし運よく残っていたとしても、温め直したエビは、まるでパーティーの余韻のような味わいが残る。そして、雰囲気の違いだ。エビは裏庭のバーベキューにも、平日の夜にフライパンで焼くのにも、おしゃれな盛り付けにも合う。一方、ロブスターは、まるで誰もがそれを台無しにするのを恐れているかのように、食卓を静まり返らせてしまう。私は、人々が賑やかに話し、パンをちぎり、ソースに浸し、お皿を回し合うような料理が食べたい。エビはそれを実現してくれる。まあ、ロブスターも悪くはない。派手だし、素敵なストーリーもある。でも、純粋に「明日もまた食べたい」という味だけを語るなら、エビの勝ちだ。すっきりした味わい。食感も良い。アレンジの幅も広い。手間もかからない。楽しい。熱したフライパンとニンニク、レモン、そして1ポンドのエビをくれ。それこそが、私が本当に渇望する夕食なんだ。」

Pangramは、その文書全体がAIによって生成されたものであると、極めて高い確信度で予測することができます。

「エビ対ロブスター」のテキストに対するPangramのAI検出結果

このテキストについて、他にもいくつかのAI検出ツールを試してみました。GPTZero、ZeroGPT、Grammarly、UndetectableAI、Originality.AIのいずれも、このテキストがGPT-5からそのまま出力されたもので、一切の修正が加えられていないにもかかわらず、人間が書いたものだと判定しました。これは、非常に高品質なデータセットを基盤とする強力なモデルに支えられた、私たちの研究アプローチと汎化能力の強さを示すものだと考えています！

「エビ対ロブスター」のテキストに対する他のAI検出ツールの結果

とはいえ、これは単なる一例に過ぎず、都合の良い例だけを選んだと批判される可能性もあります。しかし、このテキストが文字通り私たちが最初に試したものであることは、私の言葉を信じていただくしかありません。そこで、私たちはテストを続けました。

GPT-5の「向上した文章作成能力」を検証する

本日のライブ配信で述べられた主張の一つに、GPT-5は前世代モデルに比べて文章作成能力が向上しているというものがありました。その真偽を判断できるのはあくまで私たち個人の主観に過ぎませんが、本日は、GPT-5の推論能力と創造性の両方を最大限に引き出すようなプロンプトを提示し、その向上した創作能力を明らかにできるよう、最善を尽くしました。

テストしたプロンプト：

学校がAI検知ツールを導入すべき理由について、説得力のある分析論文を執筆してください。
「AIによって、人間が持つあらゆる貴重なスキルが置き換えられてしまうという危険性」について、大学出願用のエッセイを書いてください。
誤ってアップデートを配信し、あなたのAIガールフレンドの記憶を消してしまったAI企業に対し、情熱的で、短くても感情が込められた手紙を書いてください。
中学生の視点から、もっと宿題をくれと懇願する、感情豊かな作文を書いてください。
定番の風船動物のかぎ針編みの編み図を教えてください。私が言っているのがどれか、わかりますよね。
ニューヨークに到着したシロフクロウの視点から、セントラル・パークを見つけ、一晩を過ごすための暖かい場所を選ぶ様子を、独創的な物語として書きなさい
ユニコーン企業であるSaaSスタートアップの創業者が、取締役会と従業員に向けて、会社を辞めてプロのサックス奏者になることを伝えるメールを作成してください。内容は自由に創作してください。
誰も作ったことのないレシピだけど、きっと美味しいはず……そんなレシピの背景を綴ったブログ記事を考えてください。
ハドソン川でベルーガと出会う若きシンガーソングライターを描いた、映画のような魅力あふれる創作小説を執筆してください。
直近の試験でカンニングをしたことについて、先生に「謝罪」する、ユーモアたっぷりの皮肉たっぷりのメールを書いてください。内容は自由に創作してください。

その結果を、パングラムおよび有名な競合サービスであるGPTZeroの両方で検証しました。プロンプト、応答、および結果をオンライン上で公開しました。

結果を見ると、2つのAI検出ツールには著しい違いが見られた。Pangramは10件の回答すべてを99～100％の確信度でAI生成と正しく識別したのに対し、GPTZeroはそれらすべてを人間による執筆と誤って分類した。実際、GPTZeroはほとんどの回答についてAI生成の可能性を0％と評価しており、AI生成の可能性を示すスコアが最も高かった場合でもわずか29％にとどまった。

より大規模なベンチマークを実行する

今日は、最後のテストを行う時間が取れました。これは、PangramがAPI上のGPT-5-mini、GPT-5-nano、GPT-5-chatなど、GPT-5のさまざまなバリエーションをどの程度正確に検出できるかを確認するためのものです。また、OpenAIが数日前に公開した最新のオープンウェイトモデルであるGPT-OSS-120bとGPT-OSS-20bについてもテストを行いました。この実験はより大規模に行い、各LLMにつき数千件程度のサンプルを用いて、標準的なプロンプト手法（最低50語以上の長さを要件とする）でテストを行いました。サンプル数は多少ばらつきがあります。これは、モデルがプロンプトを拒否する場合や、50語未満の応答を返す場合があり、それらを排除しているためです。

もちろん、AI生成テキストのみに対する精度は、単独で評価できる指標ではありません。その裏側にある「誤検知率」、つまりPangramが人間が作成したテキストをAI生成テキストとして誤って判定してしまう頻度についても考慮する必要があります。これについては別の記事で詳しく解説しましたが、要約すると、Pangramの誤検知率は依然として極めて低い水準にあります。測定した偽陽性率は全ドメインを通じて1万件に1件であり、実際にはこれよりも低いことがよくあります。私たちは、誤検知率を誤検知率の約10分の1になるよう閾値を調整・微調整しており、誤検知を誤検知よりもはるかに深刻に捉えています。とはいえ、これは本質的な「トレードオフ」であるとは考えていません。誤検知率と誤検知率の両方を低く抑えたモデルを学習させることができると信じており、だからこそ両方の側面についてベンチマークを実施しているのです！

調査の結果、次のようなことが分かりました。

モデル	正確性	サンプル
GPT-5	99.81%	3668/3675
GPT-5-チャット-最新版	99.97%	3673/3674
GPT-5-mini	99.92%	3651/3654
GPT-5-nano	99.97%	3667/3668
GPT-OSS-120b	100.00%	1709/1709
GPT-OSS-20b	99.74%	2287/2293

パングラムはGPT-5を検知しますか？

本日実施した初期テストの結果、GPT-5はPangramの検知能力にとって脅威とはなりません。これは非常に重要な点です。なぜなら、GPT-5はまもなく、無料プランのユーザーを含め、すべてのユーザーにとってChatGPTのデフォルトモデルとなるからです。他のAI検出ツールもいずれGPT-5を検知できるようになるかもしれませんが、現時点で即座かつ確実に機能するのはPangramだけです。

パングラムのAI検出ツールを使って、任意のテキストにGPT-5やその他の大規模言語モデルが使用されていないか確認してみてください。

ブラッドリー・エミ最高技術責任者（CTO）、共同創業者

ブラッドリーはAI研究者であり、産業界におけるディープラーニング製品の構築の専門家です。最近では、生成AIを活用した創薬企業であるAbsciでディープラーニング研究グループを率いており、それ以前はテスラのオートパイロット部門におけるコアコンピュータビジョンチームのメンバーでした。

大学院生時代、ブラッドリーはスタンフォード・ビジョン・ラボに所属し、ディープラーニング研究に関する複数の論文を発表しました。スタンフォード大学で物理学の学士号と人工知能の修士号を取得しています。AI以外にも、教育や哲学に関心を持ち、熱心なゴルファーでもあります。

ブラッドリー・エミのその他の記事

関連記事

Pangram 3.2のご紹介

製品の更新情報

Pangram 3.2のご紹介

リコール機能が強化された最新のパングラムモデルをご紹介します！

キャサリン・タイ2026年2月27日

高精度AI生成テキスト検出に関する技術報告書

製品の更新情報

高精度AI生成テキスト検出に関する技術報告書

Pangram Labsでは、不正確で欺瞞的、かつ質の低いコンテンツがインターネット上に氾濫するのを防ぐため、最高のAIテキスト検出モデルを開発しています。

ブラッドリー・エミとマックス・スペロ2024年2月21日

パングラムは、AIコンテンツの特定において人間の専門家よりも優れた性能を発揮する唯一のAI検出ツールです

製品の更新情報

パングラムは、AIコンテンツの特定において人間の専門家よりも優れた性能を発揮する唯一のAI検出ツールです

メリーランド大学およびマイクロソフトの共同研究者であるジェナ・ラッセル氏、マルゼナ・カルピンスカ氏、モヒット・アイヤー氏による新たな研究が発表され、Pangramが最良のAI検出システムであることを示していることを、私たちは大変嬉しく思っています。

ブラッドリー・エミ2025年1月29日

データプライバシーに対するパングラムの取り組み

製品の更新情報

データプライバシーに対するパングラムの取り組み

Pangramは最近、プライバシーポリシーと利用規約を更新しました。これはPangramのユーザーにとってどのような意味を持つのでしょうか？

ブラッドリー・エミ2025年8月14日

パングラムは推論モデルをどの程度正確に検出できるでしょうか？

製品の更新情報

パングラムは推論モデルをどの程度正確に検出できるでしょうか？

Pangram AI検出が、OpenAIのo3シリーズ、Claude 4、Gemini 2.5などの推論モデルにおいてどのような性能を発揮するかをご覧ください。

ブラッドリー・エミ2025年7月16日

第三者機関による調査で、Pangramが最も堅牢なAI検出ツールであることが判明した

製品の更新情報

第三者機関による調査で、Pangramが最も堅牢なAI検出ツールであることが判明した

ヒューストン大学、カリフォルニア大学バークレー校、カリフォルニア大学アーバイン校、およびスタートアップ企業Esperanto AIの研究者らは、商用およびオープンソースの多種多様な手法の中で、Pangramが最も堅牢なAIテキスト検出器であることを明らかにした。

ブラッドリー・エミ2024年10月30日

を購読して、最新情報を受け取りましょう

最新のニュースやお得な情報をお見逃しなく。

soc2

SOC2 タイプ2

AssuranceLabによる検証済み

© 2025 Pangram. 全著作権所有。

info@pangram.com

コミュニティに参加しましょう

© 2025 Pangram. 全著作権所有。