Proofigとの新たな提携を発表!詳細はこちら

第三者によるパングラム評価

デスティニー・アキノデ
2025年11月4日

機関がPangramの高精度を信頼できることが重要であると考えております。そのため、品質指標(偽陽性率と偽陰性率)に関する第三者検証を推奨します。以下に、シカゴ大学(UChicago)およびメリーランド大学(UMD)の研究者ならびに商業レビュー担当者によるPangramの評価結果を掲載します。

主なポイント:パングラムの内部テストは、第三者による検証に耐えうるものである。

パングラムの信頼性と正確性(シカゴ大学)

実験

シカゴ大学ベッカー・フリードマン経済研究所の研究者らは、4種類のAI検出ツール(Pangram、GPTZero、Originality AI、オープンソースのAI検出ツールRoBERTa)を比較した。本研究では各検出ツールを用い、2020年以前に書かれた人間によるテキスト1,992件と、様々なジャンル・単語数にわたるAI生成テキスト1,992件を分析した。 AI検出における誤検知率(FPR)と誤否認率(FNR)の2種類の誤りを検証した。これらの率は複数の閾値で比較された。検出器はChatGPT、Claude、Geminiなどの人気LLMによるAI生成テキストも分類した。研究者らは検出器間で複数のFPRポリシーキャップを設定し、FNRの変化を観察した。

結果

ブライアン・ジャバリアンとアレックス・イマスによる研究『人工的ライティングと自動検出』(2025年8月)より:

パングラムは、あらゆる閾値において他の検出器を圧倒している。

パングラムは、AIテキストを正確に検出する能力を損なうことなく、厳格な検出率上限(FPR ≤ 0.005)を満たす唯一の検出器である。

パングラムは全ジャンルにおいて平均コストリーダーであり、正しく検出されたAI文章1件あたり0.0228ドル(約2.28円)であるのに対し、OriginalityAIは0.0416ドル(約4.16円)、GPTZeroは0.0575ドル(約5.75円)である。これによりパングラムは、完全な文章と短い文章の両方において最もコスト効率の高い検出ツールとなっている。

研究により以下のことが示された:

パングラムは中程度の長さから長い文章において、本質的にゼロに近い偽陽性率と偽陰性率を達成する。

パングラムの高精度は、ブログ、レビュー、履歴書、ニュース、小説など様々なジャンルのテキストで高く評価された。短文テキストでは偽陽性率と偽陰性率がわずかに上昇するが、「合理的なポリシー閾値を十分に下回ったままである」。

シカゴ大学の研究者らは、他の既存AI検出器と比較したPangramの優れた性能を指摘した。偽陽性率(FPR)の上限を0.0001に設定した場合、「GPTzeroもOriginality.AIも、最も厳格なFPRポリシー上限下では良好な結果を示さない。…一方Pangramは、ほとんどのLLMモデルにおいて依然として約0.01の偽陰性率(FNR)を達成している」

パングラムは50語未満のテキストでは予測しなくなったが、研究で指摘されているように、

Pangram’s performance largely holds up on very short passages (< 50 words) and is robust to “humanizer” tools (e.g., StealthGPT), the performance of other detectors becomes case-dependent.

パングラムのヒューマナイザーに対する性能(メリーランド大学)

実験

UMD研究の実験1では、LLMに関する知識レベルが異なるアノテーターを用いて、テキストがAI生成かどうかを予測させた。 あるアノテーターがAIテキストの識別においてほぼ完璧な精度を示したことを確認した後、LLM使用経験が類似した4名の追加専門家アノテーターを起用し、同じ60件のサンプルを分類させた。専門家による判定結果は、Pangram、Pangram Humanizer、GPTZeroといった商用検出ツールや、Fast-DetectGPTなどのオープンソースツールと比較された。この過程において、Pangramは他の検出ツールと比較して優位性を示した。

パングラムの、言い換えられ人間味を加えられたテキストに対する一貫した性能

結果

パングラムは人間化処理されたAI生成テキストを正確に検出できる。これはUMDのコンピュータ科学者らによって裏付けられており、パングラムが人間化処理テキストと言い換えテキストの検出において総合最高スコアを記録し、99.3%の精度で他のAI検出ソフトウェアを上回ったと報告されている。

パングラムがヒューマナイザーと比べてどうなのか、詳しく知る

研究機関外におけるパングラム評価

トムズガイドのアマンダ・キャスウェルは記事で、数十種類のAI検出ツールを試した結果、パングラムが「私が試した他のツールを凌駕した」と述べている。パングラムはまた、既に低い偽陽性率をさらに低減させるべく、着実に取り組んでいることが示された。

ZDNETのデイビッド・ゲウィーツは、パングラムを「我々のテストに新たに加わった製品でありながら、即座に優勝圏内に躍り出た」と評している。

研究論文におけるAIの使用が増加しているため、これが不正行為の指標となるのではないかという懸念がある。アダム・デイのMedium記事では、AIコンテンツの普及率に関する信頼性の高い結果を得るためにPangramのAI検出ツールを使用しつつ、研究における生成AIの正当な利用事例も存在すると結論づけている。デイは研究にPangramを活用することを推奨し、「公開文献における生成AIの使用状況を調査したい場合、Pangramのツールでそれを実現する絶好の機会があると思う」と述べている。

パングラムの結果を信頼できる研究に活用する(メリーランド大学)

UMDの研究者(マイクロソフトおよびPangramとの共同研究)は、PangramのAI検出結果を用いた最近の研究で、186,000件の新聞記事をサンプルとしてニュースにおけるAI生成テキストの存在を分析した。AI生成と判明したニュースの割合は低かったものの、AIの使用は開示されていなかった。 Pangramを用いて「ニューヨーク・タイムズ、ウォール・ストリート・ジャーナル、ワシントン・ポストの各紙の論説ページに掲載されたAIコンテンツを含む219記事を特定した」。

本研究では、AIの使用における以下のような微妙な差異を指摘することができた:

自ら記事を書く記者は、記事で引用した人物がAIを使って回答を作成したことに気づいていない可能性がある。

ニュースにおけるAIの活用:パングラム検出技術

結論

パングラムでは、透明性が信頼の基盤であると確信しています。貴組織にAIの透明性をもたらすため、ぜひご協力させていただきたいと考えております。

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。