Proofigとの新たな提携を発表!詳細はこちら
研究者はAI研究論文の執筆に大規模言語モデル(LLM)を利用しているのか?査読者はこれらの論文のレビュー作成を生成AIツールに外注しているのか?これを明らかにするため、最も重要かつ権威あるAI研究発表の場の一つである国際学習表現会議(ICLR)の全19,000本の論文と70,000件のレビューを分析した。 OpenReviewとICLRの公開査読プロセスのおかげで、全ての論文とその査読はオンラインで公開されており、このオープンな査読プロセスが本分析を可能にした。
すべての結果をiclr.pangram.comで公開しました。
まず第一に、我々は懸賞金を提示されたのだ!
グラハム・ノイビグによるICLR投稿論文の分析に対する報奨金提供のツイート
真剣に申し上げると、ICLRの著者や査読者の多くが、AI関連の明らかな科学的不正行為の事例を目撃しています。例えば、LLMが生成した論文に完全に虚偽の参考文献が記載されていたケースや、完全にAIが生成した査読を受け取ったと主張する著者が多数存在します。
ある著者は、査読者が査読過程でAI生成の質問を40個も投げかけたと報告している!
私たちはこの問題の規模を大まかに測りたかったのです:これらの悪質な行為は単発の事例なのか、それともより大きなパターンが働いていることを示しているのか?だからこそ、私たちはグラハムの申し出を受け入れたのです!
ICLRは、論文および査読においてLLMの使用に関して、許可される事項と禁止される事項について非常に明確かつ詳細な方針を定めています。
方針1. LLMの使用はすべて開示されなければならない。これは「研究へのあらゆる貢献は謝辞で認められるべきである」という倫理規定の方針に従い、また貢献者は「自身の仕事に対して…謝辞を受けることを期待すべきである」という方針に基づくものである。
ポリシー2. ICLRの著者および査読者は、倫理規定「研究者は故意に虚偽または誤解を招く主張を行ったり、データを捏造・改ざんしたり、結果を誤って表現してはならない」に従い、自身の貢献内容について最終的な責任を負う。
ICLRでは、論文やレビューで大規模言語モデル(LLM)を使用する際の著者向けガイドラインも定めています。要約すると:
したがって、本調査は個々の違反者を糾弾する手段として実施するものではありません。実際、論文投稿と査読プロセスの双方においてLLMの使用は認められています。むしろ我々が注目したいのは、論文と査読におけるAI使用の頻度であり、完全にAI生成された査読(これは確かに倫理規定違反となる可能性が高い)が、多くの人が認識している以上に広範な問題であることを強調したいのです。
まず、OpenReview APIを使用してICLR投稿論文のPDFを全てダウンロードしました。また、全てのノートもダウンロードし、これにより査読内容を抽出することができました。
通常のPDFパーサー(PyMuPDFなど)では、行番号や画像、表が正しく処理されないことが多いため、ICLR論文には不十分であることが判明しました。 そのため、論文の本文を抽出するために、Mistral OCRを用いてPDFから本文をMarkdown形式で解析した。AIもMarkdown出力を好む傾向があるため、書式のみによる誤検出を軽減するため、Markdownをプレーンテキストに再フォーマットした。
次に、これらのPDFから解析したプレーンテキストに対して、Pangramの拡張テキスト分類器を実行しました。この拡張版分類器はまずテキストをセグメントに分割し、各セグメントに対して個別にAI検出モデルを実行します。その結果、AI生成テキストと判定されたセグメントの割合がパーセンテージで示されるため、論文が完全に人間によって書かれたものか、完全にAIによって生成されたものか、あるいは一部セグメントが陽性判定で一部が陰性判定となる混合タイプかを判断できます。
また、新たなEditLensモデルを用いてAIの査読も検証しました。EditLensはAIの存在を検出できるだけでなく、編集プロセスにおけるAIの関与度合いも記述可能です。EditLensはテキストが以下の5つのカテゴリーのいずれかに該当すると予測します:
EditLensは現在、プライベートベータ版のお客様のみが利用可能ですが、12月上旬に一般公開される予定です。 このモデルについては今後数週間で詳細をお伝えしますが、研究プレプリントでは共著テキスト生成において最先端の性能を有すると記述しています。また内部ベンチマークでは、二値分類器として評価した場合、現行モデルと同等の精度を示し、完全に人間が書いたテキストに対しては1万件に1件という極めて低い偽陽性率を達成しています。
過去のAIカンファレンス論文分析において、Pangramは2022年以前に発表された全てのICLRおよびNeurIPS論文に対して偽陽性率0%を達成していることが判明しました。これらの論文の一部は確かにトレーニングセットに含まれていますが、全てが該当するわけではありません。したがって、Pangramの真のテストセット性能は実際には0%に極めて近いと確信しています。
査読についてはどうでしょうか?追加の陰性対照実験として、2022年の全査読論文に対して最新のEditLensモデルを適用しました。 その結果、Lightly Edited(軽度編集)とFully Human(完全人間編集)の誤差率は約1/1000、Medium Edited(中程度編集)とFully Humanの誤差率は約1/5000、Heavily Edited(重度編集)とFully Humanの誤差率は約1/10000でした。Fully AI-generated(完全AI生成)とFully Humanの混同は確認されませんでした。
ICLR 2022レビューにおけるEditLens予測の分布(陰性対照)
実験自体については、全論文と査読論文に対してパングラムを実行した。主な結果は次の通りである:
21%(15,899件)のレビューが完全にAI生成されたものであることが判明しました。また、半数以上のレビューにおいて、AI編集・支援・完全生成のいずれかの形でAIが関与していることが確認されました。
ICLR 2026査読におけるEditLens予測の分布
一方、論文投稿の大半は依然として人間が執筆したものだ(61%が主に人間執筆)。ただし、完全にAI生成の論文も数百件確認された(ただしこれらは例外的な事例と思われる)ほか、投稿論文の9%はAI生成コンテンツが50%以上を占めていた。ただし注意点として、完全にAI生成された論文の一部は、分析を行う前に既にデスクレジェストされOpenReviewから削除されていた。
ICLR 2026論文投稿におけるAIコンテンツの分布
結果から興味深い傾向がいくつか見られ、論文投稿と査読の両方におけるAIの活用方法、およびこの活用が査読プロセス自体に及ぼす下流効果について明らかになった。
以前の研究では、大規模言語モデル(LLM)を審査員として使用した場合、人間の文章よりも自身の生成文を好む傾向があることが示されていたが、我々の結果は逆である:提出物に含まれるAI生成テキストが多いほど、評価は悪化する。
論文におけるAIコンテンツの平均レビュースコア
これには複数の理由が考えられる。一つは、論文でAIの使用が増えるほど、論文全体の構想や実行が不十分になる傾向がある点だ。科学論文執筆においてAIが活用される場合、補助的なツールとしてではなく、作業の負担軽減や近道として使われるケースが多い可能性がある。 さらに、AIが完全に生成した論文が低い評価を受けることは、AI生成の研究が依然として質の低い粗雑なものであり、(現時点では)科学への真の貢献とはなっていない可能性を示唆している。
AI関与レベル別の平均レビュースコア
レビューにAIが関与する度合いが高まるほど、評価スコアも上昇する傾向が確認されました。これは問題です。つまり、AIを枠組みとして自身の意見を再構築するのではなく(その場合、AIレビューと人間レビューの平均スコアは同等となるはず)、審査員が論文の評価判断そのものをAIに委ねていることを意味します。 LLMの意見をレビュアー自身の実際の意見として誤って提示することは、倫理規定への明らかな違反である。AIはお世辞を言う傾向があることは周知の事実であり、これは偏りのない意見を与えるのではなく、人々が聞きたいと思うような、好ましいことを述べることを意味する。査読に適用される場合、これは完全に望ましくない特性である!これがAIレビューにおけるスコアの肯定的バイアスを説明しうる。
AI関与レベル別の平均レビュー長
以前は長いレビューほど熟考された高品質なものと見なされていましたが、LLMの時代においては逆の場合が多いのです。AI生成のレビューは長文で、多くの「詰め物コンテンツ」を含んでいます。Shaibらによる研究論文『Measuring AI Slop in Text』によれば、AIの「スラップ(粗雑な内容)」の特徴の一つは情報密度が低いことだ。つまりAIは実際のコンテンツとしてほとんど何も伝えていないのに、多くの言葉を使っているということである。
LLMのレビューにおいても同様の傾向が見られます:AIは多くの言葉を使っているものの、実際には情報密度の高いフィードバックを提供できていません。 この問題点は、著者が長いレビューを解析し、実質的に有益なフィードバックを含まない空虚な質問に答える時間を浪費せざるを得ない点にある。また、多くの著者は投稿前に大規模言語モデルに自身の原稿のレビューを依頼する可能性が高いことも付記すべきである。こうしたケースでは、著者は既にLLMが指摘するであろう明らかな批判点を確認済みであるため、LLMレビューからのフィードバックはほとんど冗長で役に立たない。
パングラムの偽陽性率は極めて低いものの、ゼロではない。したがって、論文の運命(例えばデスクリジェクションの決定)に関する個別判断を下す際や査読者を処罰する際に本ツールを推奨する前に、その信頼性を定量化する責任が我々にはある。前述の陰性対照研究を用いてドメイン内での偽陽性率を直接測定したが、他のデータセットやベンチマーク、一般テキストではどうだろうか?
前回のブログ記事で、パングラムの偽陽性率を検証しました。
パングラムの正確性は、シカゴ大学ブース校や米国癌研究協会による最近の研究を含む、複数の第三者機関による研究でも検証されている。
これらの数値を文脈に当てはめると、Pangramの偽陽性率はDNA検査や薬物検査の偽陽性率と同等である。完全なAI生成テキストが完全な人間生成テキストと誤認される真の偽陽性はゼロではないが、極めて稀である。
AI生成のレビューを受け取った可能性がある著者は、いくつかの特徴的な兆候を確認できます。PangramはAI生成テキストを検出できますが、目視でもAIレビューの特徴を見分けることが可能です。
AIによる文章パターンを目視で検出するための一般的なガイドを作成しましたが、AIによるピアレビュー内には特に存在する追加のシグナルやマーカーも確認しています。
AIピアレビューで気づく「兆候」の一部:
長所:明確な問題設定:本論文は現実の問題に取り組んでいる——VLMベースのOCRシステムは劣化した文書に対して不確実性を示さずに幻覚を生成し、明らかに文字化けした出力を生成する従来のOCRシステムよりも劣る。動機付けは明確に記述されている。体系的な方法論:二段階学習アプローチ(疑似ラベルによるコールドスタート+GRPO)は合理的で詳細に記述されている。報酬ハッキング対策(特に長さ不一致減衰係数η)を備えた多目的報酬設計は、入念な設計を示している。
質問:1.実際の劣化への一般化:著者らは、特定の人工劣化パイプラインを超えて本手法が一般化することを実証するため、実際の劣化文書(例:歴史的文書データセット)で評価できるか?2.MinerUシステムとの比較:MinerUおよびMinerU2.5 [2,3]は文書解析における最近の進展を表す。 提案手法はBlur-OCRにおいてこれらのシステムとどのように比較されるか?これらのシステムが不確実性推定を生成できない場合、提案タグ付け手法と組み合わせることは可能か?
本質的な分析ではなく浅い難癖:AI生成のレビューは、論文の科学的整合性に対する真の懸念よりも、表面的な問題に焦点を当てがちである。典型的なAIの批判には、提示されたアブレーションと非常に類似した追加のアブレーションが必要であること、テストセットのサイズや対照群の数の増加を要求すること、あるいはより明確な説明や追加の例を求めることなどが含まれる。
多くの言葉を費やしても本質を伝えられない:AIレビューは情報密度が低い傾向があり、簡潔に表現できる主張を冗長な言葉で述べる。この冗長性は、長大なレビューから実質的な批判を抽出せねばならない著者にとって余分な労力を生む。
今年初め、韓国のUNIST(蔚山科学技術院)の研究者らが、査読プロセスの質が低下している理由を概説した意見書を公表した。AI分野が成長を続ける中、査読システムにかかるリソースの負担はついに限界を見せ始めている。爆発的に増加する論文数に対して、有資格の査読者は単純に限られているのだ。
低品質なAI生成論文の最大の問題は、限られた時間と資源を単に浪費することにある。我々の分析によれば、AI生成論文は人間が執筆した論文に及ばず、さらに深刻な問題として、不正な査読者や論文工場が「大量投稿(多数の論文を学会に提出し、そのうち1つが偶然受理されることを期待する手法)」によって安価に生成できる点だ。 AI生成論文が査読システムに氾濫することを許せば、査読の質は低下し続け、真の研究ではなく「粗悪な論文」を読まされることで査読者の意欲はさらに低下するだろう。
AI生成レビューが有害となり得る理由を理解するには、もう少し複雑な視点が必要です。 ICLRの見解に同意する点として、AIは特に英語が母語でない査読者に対し、自身の考えをより明確に表現する手助けとして、補助的な役割で有益に活用できる。さらに、AIは真に有益なフィードバックを提供できる場合が多く、著者がLLM(大規模言語モデル)と査読プロセスをロールプレイし、LLMに研究を批判的に検証させ、研究の穴を突かせ、著者が当初見落としていた可能性のある誤りや欠陥を発見させることは、しばしば生産的である。
しかし疑問は残る:AIが有益なフィードバックを生成できるなら、なぜ完全なAI生成レビューを禁止すべきなのか?シカゴ大学の経済学者アレックス・イマスは最近のツイートで核心をこう指摘する:その答えは、科学的査読に人間の判断を関与させるべきかどうかによって決まるのだ。
アレックス・イマスのAI生成レビューに関するツイート
現在のAIモデルが人間の判断を完全に代替できると考えるなら、学会は査読プロセス全体を自動化すべきだ——論文をLLMに通し、自動的に採点する。しかし人間の判断がプロセスの一部として残るべきだと考えるなら、AI生成コンテンツの完全な採用は制裁対象となる。 イマスは二つの主要な問題を指摘している。第一に、AI生成コンテンツ(生成が容易であるため)が数回の査読サイクルで人間の判断を急速に駆逐する「プール均衡」が生じること。第二に、AIによる査読が実際に優れているかどうかを判断するには、自ら論文を査読するのと同じ労力が必要となる「検証問題」である。つまり、LLMが人間よりも優れた査読を生成できるなら、なぜプロセス全体を自動化しないのか?
私の見解では、人間の判断は補完的でありながら、AIのレビューとは直交する価値を提供する。人間はしばしば、直には明らかではない分布外フィードバックを生み出せる。専門家の意見はLLMよりも有用である。なぜなら、その意見は経験、文脈、そして時間をかけて培われ洗練された視点によって形作られているからだ。LLMは強力だが、そのレビューには往々にして趣や判断力が欠け、したがって「平板」に感じられる。
将来のカンファレンスでは、SOTA LLMによるレビューを人間のレビューと並べて掲載することで、人間のレビューがLLMによって指摘可能な「明らかな」批判を単に繰り返すだけにならないようにできるかもしれない。
学術査読におけるAI生成コンテンツの台頭は、科学コミュニティにとって重大な課題である。我々の分析によれば、完全にAIによって生成された査読はICLR査読対象全体の相当な割合を占めており、AI生成論文の数も増加傾向にある。しかしながら、こうしたAI生成論文は、真の研究貢献というより、粗雑な内容であることが多い。
我々は、この傾向が科学にとって問題であり有害であると主張し、会議や出版社がAI検出技術を採用し、悪用を阻止し科学的誠実性を守る解決策として活用するよう求める。