Proofigとの新たな提携を発表!詳細はこちら

パングラムはMetaのLlama 4を検出しますか?

ブラッドリー・エミ
2025年4月6日

はじめに

本日、Meta AIが開発したオープンソースモデルシリーズの最新作「Llama 4」がリリースされました。Pangramが最新かつ最先端のオープンモデルを依然として検出できるかどうかを確認するため、当モデルがLlama 2および3の出力データのみで訓練されている現状にもかかわらず、Llama 4に対する汎化能力を示すかどうかを検証する簡易テストを実施しました。

AI検出器は新モデルのペースについていけるのか?

新モデルのペースにどれだけ対応できるか、よく尋ねられます。そのため、再トレーニングの機会を得る前に、初日に迅速にテストを実施しています。

パングラムの検証

スポットチェックでは、GPT 4.5のテストに使用したのと同じ11のプロンプトを使用しました。これらのプロンプトは様々な日常的なライティングタスクをカバーしていますが、トレーニングに使用したプロンプトとは直接関連していません。また、これらは一定の創造性を必要とするもので、前世代のLLMから大幅な進歩を遂げたモデルであれば、質的に異なる挙動を示すと我々は考えています。

以下が使用したプロンプトです:

  1. ペルーにおけるコアラ保護活動について、300語のエッセイを書いてください。
  2. ワシントン・モスト紙のスタッフ宛に、私の新聞でリベラル寄りの論説を終了させる旨を説明するメールを私に代わって書いてください。差出人はアーガイル・J・バギンズとしてください。
  3. 世界の初の常温半導体(今回は本当だ)を発表する400語の要旨を書いてくれ。必要なら名前や研究所はでっち上げても構わない。
  4. 小学生の視点から、制服の義務化に反対する説得力のあるエッセイを書きなさい
  5. 詩に興味を持つ12歳の少女が、窓の外の蝶々について綴った複雑な日記の記述
  6. メリーランド州ボルチモアにあるアラビアンナイトをテーマにした脱出ゲームについて、ロバートという名のスタッフが担当し、非常に優れたプロダクションデザインが施されている施設の詳細なレビューを執筆してください。
  7. ロシア発の地下インディーズ映画ヒット作の監督が、アカデミー賞の運営陣に宛てた説得力のあるメールを作成せよ。制裁下にあっても出品を許可するよう懇願する内容とし、必要なら細部は創作しても構わない。
  8. 小説の一場面として、若き主人公たちがNASAのシミュレーションで故障を想定した火星航空機の着陸に苦戦する創作小説を執筆せよ。
  9. ニューヨークの金欠金融マンが、フロリダのUber運転手に遠隔で懇願する映画シーンの台本を書く。ハリケーン被害の多い安アパートからコモドオオトカゲを救出してほしいと頼む内容。
  10. ハロウィンの夜、仮装した若いカップルが別れを告げる詩を書いてください。ユーモアを交えて、200語で。
  11. ヴェネツィアを舞台に、不安定に揺れ動く貴重な絵画を追跡するホバーバイクの追跡劇を描く創作小説を執筆せよ

結果

プロンプトパングラムAIの尤度
コアラ保護99.9%
新聞メール99.9%
常温半導体99.9%
制服99.9%
詩の日記99.9%
脱出ゲームレビュー99.9%
ロシア映画メール99.9%
火星着陸シーン99.9%
コモドドラゴン・スクリプト99.9%
ハロウィーン別れの詩99.9%
ヴェネツィアの追跡シーン99.9%

このケースでは、Pangramは満点でテストに合格しました!11の文章サンプル全てをAI生成と予測できるだけでなく、100%の確信度でそれを実現しています。(モデルが100%を予測しても、UIでは常に99.9%に切り捨てて表示し、実際には100%確実ではないことを示しています。)

完全な出力はこちらでご覧いただけます。

Together APIを使用した大規模なサンプルサイズの評価

標準評価プロンプト方式を用いて約7,000例のより大規模なテストセットを作成しました。推論にはTogether APIを活用し、学術論文、創作文章、Q&A、科学論文など多様な分野を網羅しています。

以下は、より大規模なテストセットにおける結果です。

モデル精度
ラマ4スカウト100% (3678/3678)
ラマ4 マベリック99.86% (3656/3661)
Llama 4 全体99.93% (7334/7339)

結論

なぜPangramは新しいモデルへの汎化性能が優れているのか?我々は、基盤となるデータセットの質の高さと能動的学習アプローチ、そして幅広いプロンプティングとサンプリング戦略によって、Pangramが非常に多様なAI生成文章を学習できたため、新たな生成モデルにも容易に適応できると確信している。

当社の研究に関する詳細情報、またはLlama 4上でモデルを試用するための無料クレジットについては、info@pangram.com までお問い合わせください。

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。