Proofigとの新たな提携を発表!詳細はこちら
本日、Meta AIが開発したオープンソースモデルシリーズの最新作「Llama 4」がリリースされました。Pangramが最新かつ最先端のオープンモデルを依然として検出できるかどうかを確認するため、当モデルがLlama 2および3の出力データのみで訓練されている現状にもかかわらず、Llama 4に対する汎化能力を示すかどうかを検証する簡易テストを実施しました。
新モデルのペースにどれだけ対応できるか、よく尋ねられます。そのため、再トレーニングの機会を得る前に、初日に迅速にテストを実施しています。
スポットチェックでは、GPT 4.5のテストに使用したのと同じ11のプロンプトを使用しました。これらのプロンプトは様々な日常的なライティングタスクをカバーしていますが、トレーニングに使用したプロンプトとは直接関連していません。また、これらは一定の創造性を必要とするもので、前世代のLLMから大幅な進歩を遂げたモデルであれば、質的に異なる挙動を示すと我々は考えています。
以下が使用したプロンプトです:
| プロンプト | パングラムAIの尤度 |
|---|---|
| コアラ保護 | 99.9% |
| 新聞メール | 99.9% |
| 常温半導体 | 99.9% |
| 制服 | 99.9% |
| 詩の日記 | 99.9% |
| 脱出ゲームレビュー | 99.9% |
| ロシア映画メール | 99.9% |
| 火星着陸シーン | 99.9% |
| コモドドラゴン・スクリプト | 99.9% |
| ハロウィーン別れの詩 | 99.9% |
| ヴェネツィアの追跡シーン | 99.9% |
このケースでは、Pangramは満点でテストに合格しました!11の文章サンプル全てをAI生成と予測できるだけでなく、100%の確信度でそれを実現しています。(モデルが100%を予測しても、UIでは常に99.9%に切り捨てて表示し、実際には100%確実ではないことを示しています。)
完全な出力はこちらでご覧いただけます。
標準評価プロンプト方式を用いて約7,000例のより大規模なテストセットを作成しました。推論にはTogether APIを活用し、学術論文、創作文章、Q&A、科学論文など多様な分野を網羅しています。
以下は、より大規模なテストセットにおける結果です。
| モデル | 精度 |
|---|---|
| ラマ4スカウト | 100% (3678/3678) |
| ラマ4 マベリック | 99.86% (3656/3661) |
| Llama 4 全体 | 99.93% (7334/7339) |
なぜPangramは新しいモデルへの汎化性能が優れているのか?我々は、基盤となるデータセットの質の高さと能動的学習アプローチ、そして幅広いプロンプティングとサンプリング戦略によって、Pangramが非常に多様なAI生成文章を学習できたため、新たな生成モデルにも容易に適応できると確信している。
当社の研究に関する詳細情報、またはLlama 4上でモデルを試用するための無料クレジットについては、info@pangram.com までお問い合わせください。