Proofigとの新たな提携を発表!詳細はこちら

パングラムは推論モデルをどの程度正確に検出できるか?

ブラッドリー・エミ
2025年7月16日

2025年の大規模言語モデルにおける最も重要なブレイクスルーの一つは、推論モデルの台頭である。これらは俗に言う「話す前に考えることを学んだ」モデルである。

推論モデルとは何か?

推論モデルは通常のLLMと同様であるが、出力トークンを生成するだけでなく、思考トークン(推論トークン)を生成するよう訓練されている点が異なる。思考フェーズでは、モデルは複雑なタスクを推論しようと試み、様々なアプローチを試行し、自らに問いかけながら答えを導き出す。実際、これらのモデルは問題解決、特に数学やコーディングの分野で卓越した能力を発揮し、ベンチマークスコアにおいて格上の性能を示す。

推論モデルはどのように機能するのか?

推論モデルは発話前に「思考の連鎖」と呼ばれる処理を実行する。以下はその一例であり、現在唯一モデルの「思考」を公開しているDeepseek-R1からのものである。

Deepseek R1 思考の流れの例

この例では、Deepseekはトークンを出力し始める前にユーザーの意図を推察するため、最適な出力を論理的に整理し、考え抜く能力が向上している。

最も一般的な推論モデルにはどのようなものがありますか?

複数のプロバイダーが、最先端の性能を達成した推論モデルを開発している。

OpenAI

OpenAIの推論モデルシリーズは O-seriesと呼ばれています。現在利用可能なモデルはo1、o1-mini、o3、o3-pro、o4-miniです。o3-proがこれらのモデルの中で最も高性能です。

アンソロピック

AnthropicはClaudeの最新バージョンに推論機能を追加しました。Claude 4 OpusとClaude 4 Sonnetの両方に「拡張思考」モードが搭載され、回答前に推論を行うことが可能になりました。

ジェミニ

GoogleのGemini 2.5モデルシリーズは、内部思考プロセスを採用し、推論モデルとしても機能します。Gemini 2.5 Pro、Gemini 2.5 Flash、Gemini 2.5 Flash-Liteはいずれも思考能力を備えています。

ディープシーク

Deepseek R1は最初のオープンソース推論モデルであり、中国のDeepseek社によってリリースされた。他の商用クローズドソースモデルとは異なり、Deepseekでは最終出力に加えてモデルの思考過程を実際に確認できる。

クウェン

さらに、中国の別の企業であるQwenは、Qwen-QWQ-32Bという推論モデルを発表した。これはDeepseek R1よりも小型の推論モデルであり、より多様なコンテキストに展開可能である。

パングラムはこれらの推論モデルにおいてどのような性能を発揮するのか?

最近、Pangram AI検出モデルの更新版をリリースしました。これにより、推論モデル全般の性能が向上しています。

モデルパングラム(旧)パングラム(7月リリース)
OpenAI o199.86%100%
OpenAI o1-mini100%100%
OpenAI o393.4%99.86%
OpenAI o3-pro93.9%99.97%
OpenAI o3-mini100%100%
OpenAI o4-mini99.64%99.91%
ジェミニ2.5プロ思考99.72%99.91%
クロード作品第4番99.89%99.94%
クロード・ソネット499.89%99.91%
ディープシーク-R1100%100%
クウェン-QWQ-32b100%100%

最も顕著な性能向上が見られるのはo3とo3-proです。o3とo3-proはOpenAIが以前にリリースしたモデルとはかなり異なるモデルであることが判明し、従来のAI検出モデルはこれらに対して十分に汎化できず、最初のテストでは再現率93%しか達成できませんでした。

o3 および o3-pro の解決

私たちが直面したもう一つの問題は、o3とo3-proが前世代モデルよりも大幅に高価であるため、他のモデルと同規模でデータを生成できない点です。さらに複雑だったのは、これらのモデルが出力トークンを生成する前に多くの時間を思考に費やすため、実行時間も長くなるという事実でした。

トレーニングセットデータを再生成し、少量のo3およびo3-proデータを含めました。7月リリース向け最終トレーニングセットでは、o3テキストはトレーニングデータ全体の0.17%、o3-proテキストは0.35%のみを占めています。 このバランスを調整し、汎化能力の向上を図るため、o3-miniテキストの構成比率をトレーニングデータ全体の5%に増強しました。驚くべきことに、この手法は非常に効果的でした!わずかなトレーニングセットの調整だけで、偽陽性のトレードオフなしに、o3およびo3 proのリコールを、評価対象の他のLLMと同等レベルに維持することができたのです。

パングラムは少数の例から学習する学習者である

パングラムのこの特性、すなわち従来とは質的に異なる新世代LLMから得られる少量のサンプルデータで学習できる点こそが、我々が「少量の学習データで学習する学習者(Few-Shot Learner)」と呼ぶ所以である。 この特性は重要な示唆を与える:新たなLLMが登場した際、あるいは内部で微調整されたLLM(その基盤となる文章スタイルが異なる可能性のある)を基盤とする新製品が登場した際にも、Pangramは大規模なデータセット再生成を必要とせず、迅速かつ低コストでそれらに適応できる。

多くの人々が、なぜ我々が最終的には「猫とネズミの追いかけっこ」のような勝負に勝てると信じているのかと尋ねます。パングラムは少数の例から学習する能力を持つため、新しい大規模言語モデル(LLM)に追いつくことは、表面上思われるほど困難ではありません。パングラムに数例を示すだけで、非常に効率的にパターンを一般化して学習できるのです。 平たく言えば、パングラムは過去に膨大な数のLLMを学習してきたため、新しいLLMの特性を「学習する方法を学ぶ」ことに極めて長けているのです。

さらに、各LLMが独自の特異なスタイルを持つという事実も相まって、LLMが進化し能力を高める中で、パングラムが新たにリリースされるLLMに適応するのはむしろ容易になっています。我々の見解では、LLMの能力はLLMの検知可能性とは直交しているのです。

最後の考察:なぜo3とo3-proは異なるのか?

AI関係者の複数の方から、o3とo3-proはこれまでに見てきた他のLLMとは確かに異なる雰囲気を持つと聞きました。 私たちの経験では、これらは(Claude 2以来)長らく初めて、Pangramがゼロショットで99%以上の信頼性予測できない(モデルのデータを一切見ずに)モデルです。何が異なるのかを特定するのは難しいですが、ここにその特殊性の理由に関する仮説をいくつかまとめました。

  • o3およびo3-proはツール使用に対して過剰に最適化されている。 PangramがAI生成コンテンツを検出する主な根拠は、ポストトレーニング段階で導入された行動特性や特異性に依存していることがわかっている。OpenAIはリリースブログ記事で、o3とo3-proが従来モデルと異なる点として、ポストトレーニングプロセスの一環としてツール使用を強化学習で訓練している点を挙げている。このポストトレーニングアルゴリズムの違いが、出力スタイルの質的変化にも影響を与えた可能性がある。

  • o3とo3-proはより多くの幻覚を示す。ネイサン・ランバートによれば、o3はコードに無効な非ASCII文字を挿入し、タスク解決中に実行した行動を幻覚した。例えば、完全に架空のMacbook Pro上でタイミングコードを実行したと幻覚した事例がある。METRによる独立評価では、o3は実際のエージェント的タスクを解決するよりも「スコアをハッキングする」傾向があることが判明している。

o3およびo3-proに関する詳細情報については、ネイサンのブログ記事ダン・シッパーの「Vibe Check」、およびOpenAIのリリースブログ記事をお読みになることをお勧めします。

結論

パングラムは推論モデルにおいて他のLLMと同等の強さを持つが、o3とo3-proは文章スタイルやトーンの面で先行モデルとは異なるようだ。パングラムのo3およびo3-proにおける性能向上過程で、パングラムが極めて強力な少例学習能力を持つため、各LLMのリリース時に想定していたほど多くの例を必要としない可能性に気づいた。

トレーニングのアーキテクチャとルーチンの変更を検討中です。これによりPangramの更新がより迅速かつ容易になり、最新のLLMを従来よりもさらに速く検出できるAI検知モデルの提供が可能になります。今後の更新にご期待ください!

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。