Proofigとの新たな提携を発表!詳細はこちら
ICLRに提出されたAI生成アブストラクトの割合を年次別に示したグラフ。2023年以降増加傾向にあることが明らかになった。
2024年2月、Frontiers in Cell and Developmental Biology誌に掲載された論文には、明らかにAI生成された図表が含まれていた。この論文は特に注目を集めたが、その理由の一つは、掲載された画像の一つに、不自然に巨大な睾丸を持つラットと、全く意味をなさない支離滅裂なテキストが描かれていたためである。
これは『Frontiers in Cell and Developmental Biology』に掲載された実在の論文です。図は明らかにAI生成です。その一つには、とんでもなく大きな睾丸を持つラットが描かれています。図中のテキストは意味不明な文字列です。pic.twitter.com/4Acn2YZYwM
— クリフ・スワン (@cliff_swan) 2024年2月15日
ピアレビュー(理論上)はこのような明らかな事例を捕捉するのに十分であるべきだが、論文の内容自体がAI生成された場合はどうだろうか?専門家でさえ、AI生成の研究と人間が書いた研究を見分けるのに苦労している。
最近のネイチャー誌のニュース記事は、学術論文におけるAI生成コンテンツへの懸念の高まりを強調している。同記事は、コンピュータ科学者が最新のLLMの一つであるClaude 3.5を用いて研究アイデアを生成し論文を執筆し、それを科学的な査読者に提示した研究について論じている。これらの査読者は論文を「新規性、興奮度、実現可能性、期待される有効性」で評価した。平均的に、査読者はAIが書いた論文を人間が書いた論文よりも高く評価したことが判明した! これは「AIは人間よりも優れた研究アイデアを生み出せるのか」という疑問を投げかける。そう思いたくなるが、研究者が調査した4,000本のAI生成論文のうち、実際に独自のアイデアを含んでいたのはわずか200本(5%)だった。大半の論文は、LLMの訓練データセットから既存のアイデアを単に吐き出しているに過ぎなかった。
結局のところ、AI生成の研究は査読プロセスにおいてノイズを増やしシグナルを減らすことでコミュニティに害を及ぼす。研究の基準を維持しようと努める査読者の時間と労力を無駄にするのは言うまでもない。 さらに深刻なのは、AI生成研究は一見説得力があるように見えるが、実際には言語モデルが生成したテキストは流暢に聞こえるだけで、誤りや幻覚、論理的矛盾が散見される点だ。問題なのは、専門家である査読者でさえ、読んでいる内容がLLMの幻覚であることを見抜けない場合が多いことである。
主要な機械学習会議の主催者も我々の見解に同意している:科学論文においてLLM生成テキストの居場所はない。ICML(国際機械学習会議)の公式方針は以下の通りである:
大規模言語モデルに関するポリシーの明確化
我々(プログラム委員長)は、2023年開催のICMLの論文募集要項に以下の声明を掲載しました:
ChatGPTなどの大規模言語モデル(LLM)から生成されたテキストを含む論文は、生成されたテキストが論文の実験的分析の一部として提示される場合を除き、禁止されています。
この声明は、潜在的な著者から多くの疑問を呼び起こし、一部の方々が自ら進んで当方へ連絡を取るきっかけとなりました。皆様からのフィードバックとご意見に感謝するとともに、この声明の意図と、ICML 2023における本方針の実施計画について、さらに明確に説明いたします。
要するに;
ICML 2023における大規模言語モデル(LLM)ポリシーでは、LLMによって完全に生成されたテキスト(すなわち「生成された」テキスト)の使用を禁止します。ただし、著者が自ら執筆したテキストの編集や推敲にLLMを使用することは禁止されません。 このLLMポリシーは、剽窃を含むLLM使用に伴う潜在的な問題を防ぐため、慎重な対応を基本原則としています。
この警告にもかかわらず、機械学習分野の著者のかなりの数が増加傾向にあることが判明しており、彼らは方針に違反して、論文内でAIを用いたテキスト生成を続けている。
パングラムでは、この問題の規模を自社の専門分野である人工知能(AI)において測定したいと考えました。私たちは次の疑問に答えようとしたのです:AI研究者は自身の研究論文を書くためにChatGPTを利用しているのか?
この問題を研究するため、我々はOpenReview APIを用いて、2018年から2024年にかけて開催された2つの最大規模のAIカンファレンス(ICLRとNeurIPS)への投稿論文を抽出した。
次に、これらの会議に提出されたすべての要旨に対してPangramのAI検出ツールを実行しました。その結果は以下の通りです:
ICLRに提出されたAI生成アブストラクトの割合を年次別に示したグラフ。2023年以降増加傾向にあることが明らかになった。
Neuripsに提出されたAI生成要旨の割合を年次別に示すグラフ。2023年以降増加傾向にあることが明らかになった。
2022年以前のデータはすべて、当モデルの偽陽性率を検証するデータセットと見なせます。当時、大規模言語モデルは存在していなかったためです。 図に示す通り、2022年以前の学会抄録は全て、当モデルによって人間が書いたものと予測される。これはモデルの精度に対する信頼性を示すものである:科学抄録における偽陽性率は極めて良好であるため、2023年および2024年に生成される陽性予測は全て真陽性であると確信できる。
それ以降に見られる状況は極めて懸念される。2022年11月にChatGPTがリリースされて以来、3回のカンファレンスサイクルが経過している。
最初のサイクルはChatGPTのリリース時期(ICLR 2023)とほぼ同時期に発生した。 投稿締切自体はChatGPT公開前でしたが、著者には会議開催前(公開から数か月後)に編集する機会がありました。結果は予想通り:AIが作成した要旨はごく少数(このサイクルでは数千件中2件のみ)で、締切後に修正された可能性が高いです。
第2サイクルは約6か月後のNeuRIPS 2023で、2023年12月の会議に向けた提出締切は同年夏でした。この会議では、提出された要旨の約1.3%がAI生成であったと報告しています。これは小さいながらも重要な割合です。
最後に、つい数ヶ月前に開催された最新のサイクルであるICLR 2024では、4.9%まで上昇する傾向が確認されました。これはNeuRIPS 2023と比較して、AI生成レビューがほぼ4倍に増加したことを意味します!
これらの結果は懸念すべき傾向を浮き彫りにしている:主要なAI学会に提出されるAI生成の学会論文の数が増加しているだけでなく、その増加率も加速している。つまり、AI生成論文の提出ペースが加速しているのだ。
これらの要旨をいくつかご覧いただき、技術科学文献で普段お読みになる文章の類いに聞こえるかどうか、ご自身でお確かめください:
ネットワーク化されたデータの複雑な環境において、介入の因果効果を理解することは、様々な分野に影響を及ぼす重大な課題である。グラフニューラルネットワーク(GNN)は複雑な依存関係を捉える強力なツールとして台頭してきたが、GNNベースのネットワーク因果推論における幾何学的深層学習の可能性は未開拓のままである。本研究はこのギャップを埋めるため、三つの重要な貢献を行う。 第一に、グラフ曲率と因果推論の理論的関連性を確立し、負の曲率が因果効果の特定に課題をもたらすことを明らかにした。第二に、この理論的知見に基づき、リッチ曲率を用いた因果効果推定の信頼性予測に関する計算結果を提示し、正の曲率領域がより正確な推定をもたらすことを実証的に示した。 最後に、リッチフローを用いたネットワークデータ上の治療効果推定改善法を提案し、ネットワーク内のエッジを平坦化することで誤差を低減し優れた性能を発揮することを示す。本知見は因果効果推定における幾何学活用の新たな道を開き、因果推論タスクにおけるGNNの性能向上に寄与する知見と手法を提供する。
言語モデルにおいて、データエンコーディングはモデル訓練の効率と効果に影響を与える極めて重要な要素である。バイトペアエンコーディング(BPE)は、頻繁に出現するバイトまたは文字ペアを結合することで計算効率と言語表現力を両立させる、確立されたサブワードトークン化技術である。 言語モデル訓練には膨大な計算資源が必要であるため、我々は言語モデル向けデータエンコーディングにおいて従来のバイトペアエンコーディング(BPE)手法を大幅に強化する手法「フュージョン・トークン」を提案する。 Fusion TokenはBPEと比較してより積極的な計算戦略を採用し、トークングループを2グラムから10グラムに拡張する。注目すべきは、語彙に1024トークンを追加することで、100万語彙の通常BPEトークナイザーを大幅に上回る圧縮率を達成することである。 全体として、Fusion Token手法は計算単位あたりのデータ範囲拡大により顕著な性能向上をもたらす。さらに、圧縮率の向上により、特定の文字列あたりのトークン数が減少するため推論時間が短縮される。トークナイザー構築プロセスにより多くの計算リソースを割くことで、Fusion Tokenは言語モデルが効率的なデータ圧縮エンジンとして持つ潜在能力を最大化し、より効果的な言語モデリングシステムを実現する。
急速に進歩する動作生成の分野において、テキストの語義を強化することは、より正確で現実的な動作を生成するための非常に有望な戦略として認識されている。 しかし、現行技術はテキスト記述を精緻化するために大規模言語モデルに依存する傾向があり、テキストデータとモーションデータの正確な整合性を保証していない。この不整合はしばしば最適でないモーション生成を引き起こし、手法の可能性を制限している。この課題に対処するため、我々はテキストデータとモーションデータのギャップを埋めることを目的とした新たなフレームワーク「SemanticBoost」を導入する。 我々の革新的な解決策は、モーションデータ自体から導出された補足的な意味情報と専用のノイズ除去ネットワークを統合し、意味的な一貫性を保証するとともに、モーション生成の全体的な品質を向上させる。広範な実験と評価を通じて、SemanticBoostがモーション品質、整合性、リアリズムの面で既存手法を大幅に上回ることを実証した。さらに、我々の知見はモーションデータからの意味的手がかりを活用する可能性を強調し、より直感的で多様なモーション生成への新たな道を開くものである。
パターンに気づきましたか?まず、これら全てが非常に似たフレーズで始まっている点です:「複雑な状況において」「分野において」「急速に進展する領域において」。これを人工的に装飾された表現と呼びます。 以前にも述べたように、大規模言語モデル(LLM)は実際のコンテンツをほとんど生み出さないのに、多くの言葉を使う傾向があります。これは宿題の最低文字数を満たそうとする学生にとっては望ましいかもしれませんが、研究内容を理解しようとする技術的な読者にとっては、この種の過剰に冗長な表現は論文の読解を困難にし、時間を浪費させる一方で、論文の真のメッセージをむしろ不明確にしてしまいます。
AI生成論文が査読プロセスによって実際に効果的に排除されているのか、それとも一部が抜け落ちているのか、私たちは疑問に思った。
この疑問に答えるため、ICLR 2024におけるAI生成要旨と論文採択決定の相関関係を分析した(口頭発表、スポットライト、ポスター発表はいずれも「採択」論文。口頭発表とスポットライトは特別表彰カテゴリー)。結果は以下の通りである:
| カテゴリー | AI生成率 |
|---|---|
| ICLR 2024 口頭発表 | 2.33% |
| ICLR 2024 ポスター | 2.71% |
| ICLR 2024 注目論文 | 1.36% |
| 却下された | 5.42% |
AI生成論文の採択率は投稿率を下回るものの、依然として相当数が査読プロセスを通過している。これは査読者がAI生成コンテンツの一部を検知している一方で、全てを捕捉できていないことを示唆している。
口頭発表や注目論文でさえAI生成の要旨が使われている事例が確認されています!好意的に解釈すれば、今後明らかになるのは、研究そのものは高品質であり、著者がChatGPTで近道をして発表や修正を効率化しているだけという可能性です。
特に、研究コミュニティの多くが英語を母語としないため、LLMの活用は他言語で書かれた論文を英語に翻訳する用途で増加するだろう。
AIコミュニティが著者にChatGPTの使用を控えるよう明示的に要請しているにもかかわらず、多くの著者がこの方針を無視し、論文執筆にLLMを利用している。さらに懸念されるのは、LLM生成論文から学会を守る査読者として活動するAI専門家でさえ、それを検出できていないことだ!
ChatGPTは学術プロセス全体にさらなる波及効果をもたらしている。最近のICML事例研究によれば、査読論文そのものの6~16%がAIによって生成されており、AI生成査読論文と締切間近での提出頻度には正の相関関係が認められた!
AIコミュニティに対し、これらのポリシーをより厳格に実施するよう求めるとともに、著者には自身の論文が人間によって作成されたものであることを保証する責任を負うよう要請する。