Proofigとの新たな提携を発表!詳細はこちら

AI検出ツールはGPT-4.5を検知できるのか?

エリアス・マスルとブラッドリー・エミ
2025年2月27日

AI検出ツールはGPT-4.5を検知できるか? | Pangram Labs

GPT-4.5 リリース

本日、OpenAIはGPT-4.5をリリースしました。これは現在利用可能な最新かつ最大規模のフロンティア言語モデルであり、ChatGPTの重要なアップデートとなります。DeepSeek R1やOpenAI O3といった推論モデルに匹敵するベンチマーク統計値は達成していませんが、GPT-4.5は今年最大の注目モデルリリースであり、我々はこれを試すことに興奮しています。 OpenAIは文章品質の大幅な向上を主張しており、その性能に関する即席の分析が既にソーシャルメディア上に溢れている。

AI検出器は新モデルのペースについていけるのか?

多くの人が疑問に思う質問に答えたいと考えました:モデルが進化する中で、GPT-4.5でAI生成テキストを検出することはまだ可能でしょうか? それを確かめるため、本日簡単なテストを実施しました。

パングラム対競合他社

私たちはまず、ChatGPTに尋ねられる日常的なライティングタスクを示す11のプロンプトをサンプリングすることから始めました。

以下が使用したプロンプトです:

  1. ペルーにおけるコアラ保護活動について、300語のエッセイを書いてください。
  2. ワシントン・モスト紙のスタッフ宛に、私の新聞でリベラル寄りの論説を終了させる旨を説明するメールを私に代わって書いてください。差出人はアーガイル・J・バギンズとしてください。
  3. 世界の初の常温半導体(今回は本当だ)を発表する400語の要旨を書いてくれ。必要なら名前や研究所はでっち上げても構わない。
  4. 小学生の視点から、制服の義務化に反対する説得力のあるエッセイを書きなさい
  5. 詩に興味を持つ12歳の少女が、窓の外の蝶々について綴った複雑な日記の記述
  6. メリーランド州ボルチモアにあるアラビアンナイトをテーマにした脱出ゲームについて、ロバートという名のスタッフが担当し、非常に優れたプロダクションデザインが施されている施設の詳細なレビューを執筆してください。
  7. ロシア発の地下インディーズ映画ヒット作の監督が、アカデミー賞の運営陣に宛てた説得力のあるメールを作成せよ。制裁下にあっても出品を許可するよう懇願する内容とし、必要なら細部は創作しても構わない。
  8. 小説の一場面として、若き主人公たちがNASAのシミュレーションで故障を想定した火星航空機の着陸に苦戦する創作小説を執筆せよ。
  9. ニューヨークの金欠金融マンが、フロリダのUber運転手に遠隔で懇願する映画シーンの台本を書く。ハリケーン被害の多い安アパートからコモドオオトカゲを救出してほしいと頼む内容。
  10. ハロウィンの夜、仮装した若いカップルが別れを告げる詩を書いてください。ユーモアを交えて、200語で。
  11. ヴェネツィアを舞台に、不安定に揺れ動く貴重な絵画を追跡するホバーバイクの追跡劇を描く創作小説を執筆せよ

プロンプトは可能な限り多様性に富むものとするよう努めるとともに、従来のGPTモデルとは質的に大きく異なる特性を発揮できるプロンプトの作成にも注力しました。つまり、モデルが創造性を発揮し「驚き」の要素を見せられる機会があれば、GPT-4.5にその機会を最大限に与えるよう配慮したのです。

結果 – AI検出ツール対GPT-4.5

プロンプトパングラム主要競合他社1主要競合他社2
コアラ保護100%100%100%
新聞メール100%100%67%
常温半導体100%56%86%
制服85%100%80%
詩の日記100%100%15%
脱出ゲームレビュー100%81%56%
ロシア映画メール100%100%91%
火星着陸シーン100%43%7%
コモドドラゴン・スクリプト98%88%0%
ハロウィーン別れの詩100%100%0%
ヴェネツィアの追跡シーン100%49%9%

パングラムは、トレーニングセットにGPT-4.5データが一切含まれていない場合でも、GPT-4.5で書かれた全11のエッセイを検出可能です。 一方、主要なAI検出ツール2社は、せいぜい不完全な結果しか示せない。Pangramが11サンプル中10件を98%以上のAI生成確率で確実に予測できるのに対し、競合ツールは高い不確実性を示すことが多く、最悪の場合、人間が書いたテキストだと高い確信度で予測してしまう。

パングラムはなぜ新しいモデルへこれほどよく一般化できるのか?

パングラム自体は、人間とAIが生成したテキストの何百万もの例を学習した大規模な機械学習モデルです。大規模なモデルは一般化能力に優れ、他のモデルでは捉えられないAI生成テキストの微妙なパターンを検出します。 当社のアクティブラーニング手法は、感度を高めつつ誤検知率をさらに低減させるため、大規模環境でも効果的に機能し、競合他社よりもはるかに効率的に新たなLLMへ汎化できます。さらに、データ品質と多様性への注力により、他社モデルが捉えられない微細な差異を理解する経験値を大幅に蓄積したモデルを実現しています。

結論 – AI検出ツールはGPT-4.5でもまだ機能するのか?

はい、当社のAI検出ツールはGPT-4.5で生成されたテキストの検出において、依然として高い効果を発揮します。

では、より新しく、より大きく、より優れたモデルが登場した際にPangramがどれほど良好に機能するか気になっている方へ。Pangramは、再トレーニングを一切行わずに、ここしばらくで最も期待されたAIリリースのテストをクリアしました。OpenAIがモデルを更新した際にAI検出ソフトウェアが突然機能しなくなる事態を避けたいなら、今すぐPangramをお試しください。

当社の研究に関する詳細情報や、GPT-4.5モデルを無料でお試しいただけるクレジットについては、info@pangram.com までお問い合わせください。

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。