ニュース

「Open Pangram」のご紹介

2026年3月24日

🤗 モデルとデータセット

ソースコード

2026年のICLR論文で提案したEditLens技術に基づいた2種類のパングラムモデルを発表できることを、誇りに思うと同時に大変嬉しく思います。これらはCC BY-NC-SA 4.0ライセンスの下で非商用利用が可能であり、MacBookでも実行できる軽量なモデルです。

なぜ私たちはPangramのオープン版をリリースするのでしょうか?

私たちは常にAI検出技術の現状に関心を寄せており、他の研究者の方々がこの分野で進展を遂げられるよう支援したいと考えています。 これまでに、AI生成コンテンツを分析・分類する新たな手法を紹介した「EditLens」論文の発表、査読論文や 米国の新聞を対象とした大規模分析の実施、研究者へのAPI利用助成の提供などを通じて、コミュニティに貢献してきました。今回、EditLensモデルのチェックポイント、トレーニングデータセット、およびソースコードを公開することで、研究者の方々が私たちの成果を基に研究をさらに発展させていけることを願っています。

レンズの編集とAIアシストによる検出

生成AIの利用が進化するにつれ、AI検出技術も進化させなければならない。OpenAIによる最近の調査によると、ChatGPTへの文章作成関連のリクエストの3分の2は、ゼロから生成するのではなく、ユーザーが提供したテキストを修正するものであることが判明した。 人間とAIが共同でテキストを作成するというこの新たなパラダイムを踏まえ、私たちはテキストに対するAIの寄与度を評価する新しい検出フレームワークを開発しました。Pangramのユーザーは、当モデルが「AIによる軽度の支援」や「AIによる中程度の支援」といった結果を返すことに気づいているかもしれません。 これらの分類は、ICLR 2026の研究論文「EditLens: Quantifying the Extent of AI Editing in Text」で発表した技術によって可能になりました。この論文では、0から1のスコアを返すAI検出モデルを紹介しており、0は完全に人間が書いたテキスト、1は完全にAIが生成したテキストを示します。データセットとソースコードの公開により、誰でも独自のEditLensモデルをトレーニングできるようになりました。

データセット

6万件のトレーニングデータ、2,400件の検証データ、6,000件のテストデータからなる「EditLens」データセットを公開します。各データセットは、4つの分野における、完全に人間が執筆したテキスト、完全にAIが生成したテキスト、およびAIが編集したテキストで構成されています。 AI編集テキストは、5つのドメイン(ニュース(Narayan et al.,2018およびSee et al., 2017)、創作(Fan et al., 2018)、Amazonレビュー(Zhang et al., 2015)、 Googleレビュー(Li et al., 2022)、および教育関連のウェブコンテンツ(Lozhkov et al., 2024)のいずれかから選択された人間が執筆した原文に、編集プロンプトを適用して生成されたものである。

AI生成およびAI編集されたテキストの生成に使用されたモデルは、OpenAIの gpt-4.1-2025-04-14 、Anthropicの claude-sonnet-4-20250514 、そしてGoogleのgemini-2.5-flash.

EditLensデータセットには、ドメイン外の評価用スプリットも2つ含まれています。1つは保留されたソーステキストドメイン(電子メール)からの6,000件の例であり、もう1つはMetaによって生成されたテストスプリットのバージョンです。 Llama-3.3-70B-Instruct-Turbo .

さらに、Grammarlyを使用して編集された約1,800件のテキストから構成されるデータセットを公開します。このデータセットは、人間が作成した200件の原文テキストに対して行われた9種類の編集結果で構成されています。各編集内容(例:「これを簡潔にしてください」)は、Grammarlyのネイティブワードプロセッサから提案された編集案です。 これら200件の人間が執筆した原文は、Persuade 2.0(Crossley et al., 2024)、ELLIPSE(Crossley et al., 2023)、BAWE(Nesi et al., 2004)、 ICNALE(Ishikawa et al., 2007)、CLASSE(Crossley et al., 2024)、またはPIILO(Holmes et al., 2023)のいずれかのデータセットから抽出されたものです。

HuggingFaceで両方のデータセットを確認できます。

モデル

パングラム/editlens_Llama-3.2-3B 最大シーケンス長1024トークンでQLoRAを用いて微調整されました。ベースモデルのパラメータ数は30億です。

パングラム/editlens_roberta-largeパラメータ数3億5500万のモデルは、最大シーケンス長512トークンで微調整された。

両モデルとも、EditLensの論文に記載されている手法に従い、1エポック分の学習を行いました。両モデルに関する追加のハイパーパラメータおよび学習コードは、EditLensのGitHubリポジトリで確認できます。モデルのチェックポイントはHuggingFaceからダウンロードできます。

評価

2値分類と3値分類のいずれにおいても、保留した検証データセットを用いてキャリブレーションを行い、閾値を決定する。

二値評価においては、完全に人間が書いたテキストと完全にAIが生成したテキストを区別する際、F1スコアを最大化する閾値を特定する。二値評価には、AIが編集したテキストは含まれていない。

3値評価については、2つの閾値を特定します。まず、評価データを「人間」、「AI」、「AI編集」の3つのカテゴリに分類します。次に、人間クラスを[AI, AI編集]データの集合から分離する下限閾値と、AIクラスを[人間, AI編集]データの集合から分離する上限閾値を特定します。これらの閾値は、F1スコアを最大化するよう設定されます。

ドメイン内テストセット

二値分類の結果

人間によるテキスト2,038件とAIによるテキスト2,046件

検出器マクロ F1FPRFNR
パングラム 3.2(現行量産モデル)1.0000.0000.000
パングラム OSS: editlens_Llama-3.2-3B1.0000.0000.000
パングラム OSS: editlens_roberta-large0.9970.0020.003
Fast-DetectGPT0.8950.1210.088
双眼鏡0.8860.1280.101

3値分類の結果

人間によるテキスト2,038件、AIによるテキスト2,046件、AIが編集したテキスト2,031件

検出器正確性マクロ F1ヒトF1AI F1AI編集版 F1
パングラム 3.2(現行量産モデル)0.9200.9200.9260.9570.876
パングラム OSS: editlens_Llama-3.2-3B0.8950.8950.8950.9480.842
パングラム OSS: editlens_roberta-large0.8810.8810.9000.9230.819
Fast-DetectGPT0.5850.5450.2460.8310.558
双眼鏡0.5690.5230.2130.8110.545

除外されたドメイン(エンロンの電子メール)

二値分類の結果

人間によるテキスト1,992件とAIによるテキスト1,847件

検出器マクロ F1FPRFNR
パングラム 3.2(現行量産モデル)0.9990.0010.001
パングラム OSS: editlens_Llama-3.2-3B0.9980.0010.004
パングラム OSS: editlens_roberta-large0.9660.0010.068
Fast-DetectGPT0.9410.0790.036
双眼鏡0.9140.1550.011

3値分類の結果

人間によるテキスト1,992件、AIによるテキスト1,847件、AI編集済みテキスト2,308件

検出器正確性マクロ F1ヒトF1AI F1AI編集版 F1
パングラム 3.2(現行量産モデル)0.9050.9090.8980.9560.872
パングラム OSS: editlens_Llama-3.2-3B0.8630.8680.8550.9360.812
パングラム OSS: editlens_roberta-large0.6950.6730.8470.5150.657
Fast-DetectGPT0.6250.5890.2610.8860.619
双眼鏡0.6180.5750.2660.8570.601

公開モデル(Llama 3.3 70B Instruct)

二値分類の結果

人間によるテキスト2,038件とAIによるテキスト2,038件

検出器マクロ F1FPRFNR
パングラム 3.2(現行量産モデル)1.0000.0000.000
パングラム OSS: editlens_Llama-3.2-3B1.0000.0000.000
パングラム OSS: editlens_roberta-large0.9870.0020.025
Fast-DetectGPT0.9390.1210.000
双眼鏡0.9360.1280.000

3値分類の結果

人間によるテキスト2,038件、AIによるテキスト2,038件、およびAIが編集したテキスト1,881件

検出器正確性マクロ F1ヒトF1AI F1AI編集版 F1
パングラム 3.2(現行量産モデル)0.9520.9510.9460.9850.923
パングラム OSS: editlens_Llama-3.2-3B0.9210.9200.9180.9650.877
パングラム OSS: editlens_roberta-large0.8600.8590.9080.8790.791
Fast-DetectGPT0.5620.5060.2620.8170.440
双眼鏡0.5400.4780.2270.7960.411

サードパーティ製ベンチマーク

非母語話者の英語(Liang et al., 2023)

91件の文章

検出器FPR
パングラム 3.2(現行量産モデル)0.000
パングラム OSS: editlens_Llama-3.2-3B0.055
パングラム OSS: editlens_roberta-large0.099
双眼鏡0.560
Fast-DetectGPT0.670

Human Detectors(ラッセルら、2024年)

人間によるテキスト150件とAIによるテキスト150件

検出器マクロ F1FPRFNR
パングラム 3.2(現行量産モデル)1.0000.0000.000
パングラム OSS: editlens_Llama-3.2-3B0.9870.0270.000
パングラム OSS: editlens_roberta-large0.9600.0200.060
双眼鏡0.8460.0870.220
Fast-DetectGPT0.7350.4870.013

RAID、ランダムな10,000件のサンプル(Dugan et al., 2024)

人間によるテキスト2,058件とAIによるテキスト7,942件

検出器cマクロ F1FPRFNR
パングラム 3.2(現行量産モデル)0.9920.0020.007
Fast-DetectGPT0.9410.0780.028
双眼鏡0.9390.1000.024
パングラム OSS: editlens_Llama-3.2-3B0.9300.0030.062
パングラム OSS: editlens_roberta-large0.7360.0070.288

Grammarlyのデータセット

これらの箱ひげ図では、収集したGrammarlyデータセットにおけるスコアの分布を、適用された編集内容ごとに分類して示しています。なお、EditLensでは、「誤りを修正する」といった文法やスペルの軽微な修正に該当する編集には、人間による評価に近い非常に低いスコアが割り当てられる一方、「より詳細にする」といった「付加的な」編集には、より高いスコアが割り当てられることに留意してください。

Pangram OSSにおける編集指示別のスコア分布:editlens_Llama-3.2-3BPangram OSSにおける編集指示別のスコア分布:editlens_Llama-3.2-3B

Pangram OSSにおける編集指示別のスコア分布:editlens_roberta-largePangram OSSにおける編集指示別のスコア分布:editlens_roberta-large

Open Pangramはどのような用途に使うべきでしょうか?

研究者の方々には、AI検出研究において「Open Pangram」モデルを基準として活用されることを推奨します。このデータセットとソースコードが、研究者の方々の研究のさらなる発展の一助となることを願っています。

Open Pangramはどのような用途には使用すべきではないのでしょうか?

Open Pangramの商用利用は許可されていません。Open Pangramのモデルは、教育機関や企業環境において、いかなる種類のAI利用ポリシーを強制するために使用してはなりません。業界トップクラスの誤検知率を誇る、より精度の高いモデルをご希望の場合は、エンタープライズ向けサービスまたは研究用APIの提供について、弊社までお問い合わせください。


キャサリン・タイ
キャサリン・タイ創設AI研究科学者

キャサリン・タイは、AI検出スタートアップ企業であるパングラム・ラボ(Pangram Labs)の創設AI研究科学者です。彼女は2025年12月、マサチューセッツ大学アマースト校にてモヒット・アイヤー教授の指導の下、コンピュータサイエンスの博士号を取得しました。同大学での研究では、文学分析に関連する課題における大規模言語モデル(LLM)の評価に焦点を当てていました。

キャサリン・タイのその他の記事

関連記事

バイデン大統領のAI安全に関する大統領令に関する声明
ニュース

バイデン大統領のAI安全に関する大統領令に関する声明

2023年10月31日
EditLensがICLR 2026に採択されました
ニュース

EditLensがICLR 2026に採択されました

2026年1月29日
EUの新たなAI法を理解する
ニュース

EUの新たなAI法を理解する

2024年3月23日
なぜパングラムには最低文字数があるのですか?
ニュース

なぜパングラムには最低文字数があるのですか?

2025年5月23日
AI検出機能が大幅に強化されました:Checkfor.aiの登場
ニュース

AI検出機能が大幅に強化されました:Checkfor.aiの登場

2023年10月12日
学生たちがAIによる検出を回避しようとする方法
ニュース

学生たちがAIによる検出を回避しようとする方法

2025年10月24日