Proofigとの新たな提携を発表!詳細はこちら
AI検出器に対する一般的な批判として、非ネイティブ英語話者に対して偏見がある点が挙げられる。非ネイティブ英語話者による文章はESL(第二言語としての英語)またはより正確にはELL(英語学習者)と呼ばれる。過去の記述では、パープレクシティやバースト性を基盤とする他のAI検出器がこの欠陥の影響を受けやすい理由を説明してきた。
非母語話者は、高いバースト性を示す文章を書くのに必要な語彙の深さや複雑な英文構文の掌握力を備えていない。したがって、これまでのAI検出の試みは不十分であった:ESL(英語を第二言語とする者)の文章をAI生成文と誤認することが多く、その結果ESLに対して高い偽陽性率を示していた。
2023年7月、スタンフォード大学の梁偉新(Weixin Liang)、James Zouらによる注目すべき研究が発表された。この研究では、GPT検出器が非ネイティブ英語話者に対して偏見を持っていると主張している。 本研究はサンプルサイズが小さく(TOEFL試験のエッセイ91編のみ)、方法論上の欠陥も存在した(検出器テスト時、GPT-4で修正された人間テキストを「人間」とラベル付けする方針を採用)。しかし全体として、 7種類のAI検出器(Pangramは本研究でテスト対象外)がESL(英語を第二言語とする)ライティングに対して強い偏見を示し、人間のESLライティングサンプルの60%以上がAI生成と判定された。
大学院入学試験の標準テストであるGREを運営する試験サービス機関ETSによる2024年8月のより最近の研究では、非英語母語話者のGREライティングサンプル約2,000件を対象に、パープレキシティを含む手作業で作成した特徴量を用いて自ら訓練した簡易機械学習検出器を用いた大規模な調査も実施された。 実験環境は高度に簡略化され人為的であったものの、研究者自身の検出器に非ネイティブ英語に対するバイアスは見られなかった。ただし本研究と実世界には重要な差異が存在し、実際に運用されている商用検出器は検証対象外であった。それでも本研究は興味深い点を浮き彫りにしている:非ネイティブ英語話者のデータが訓練セットに十分包含されれば、生じるバイアスは十分に軽減されるという事実である。
ESLデータにおけるPangramの偽陽性率を測定するため、4つの公開ESLデータセットに対してPangramのAI検出器を実行した(これらのデータセットはトレーニング中に除外しているため、トレーニングデータとテストデータの漏洩は発生していない)。
私たちが研究するデータセットには以下が含まれます:
結果は以下の通りです。
| データセット | 偽陽性率 | サンプルサイズ |
|---|---|---|
| 楕円 | 0.00% | 3,907 |
| ICNALE | 0.018% | 5,600 |
| ペリック | 0.045% | 15,423 |
| 梁 TOEFL | 0% | 91 |
| 全体的に | 0.032% | 25,021 |
パングラムの全体的な偽陽性率は0.032%であり、これは当社の一般的な偽陽性率0.01%と比べて有意に高い数値ではない。
我々は、TurnItInがAIライティング指標の公開評価で使用したのと同じデータセットを用いて、PangramとTurnItInを直接比較する。
「L1」(非ESL)と「L2」(ESL)の英語を、TurnItInと同じデータセットで評価します。TurnItInは300語を超える文書を評価しないため、評価前にデータセットに同じフィルタリングを適用します。
| データセット | パングラム FPR | TurnItIn FPR |
|---|---|---|
| L2英語 300語以上 | 0.02% | 1.4% |
| L1 英語 300語以上 | 0.00% | 1.3% |
本研究では、PangramがESLテキストにおいてTurnItInよりも2桁高い精度を示し、またPangramはネイティブ英語テキストにおいて誤検知を一切検出しないことが判明した。
GPTZeroは、梁氏のTOEFL研究のオリジナルデータセットにおいて1.1%の偽陽性率を自己報告しているが、梁氏のTOEFLデータセットの6.6%も「AI生成の可能性あり」と誤分類されている。
比較すると、PangramはLiang TOEFLデータセットにおいて偽陽性を1件も報告せず、我々は全ての例について高い確信を持っている。
パングラムでは、非母語話者による英語表現の精度を極めて重視しており、AI文章検出モデルにおける誤検知を軽減するため、複数の対策を講じています。
機械学習モデルは学習データ分布外では良好な性能を発揮しないため、非ネイティブ英語テキストがデータセットに含まれるよう細心の注意を払っている。
しかし、私たちはそこで止まりません。他のAI文章検出ツールが学生の文章や学術論文に特化しているのに対し、私たちは幅広い文章でモデルを訓練しています。 エッセイのみで訓練された他のAI文章検出ツールは、訓練データセットにおいてよりカジュアルな会話英語が過小評価される傾向があります。これに対し、当社はソーシャルメディア、レビュー、一般的なインターネットテキストからテキストを使用しています。これらは非公式な場合が多く、非ネイティブスピーカーや英語学習者が示す英語に似た、不完全な文章をより代表的に反映しています。
非ネイティブ英語の文章を含む可能性のある情報源も、特にESLデータセットでなくても取り入れるよう配慮しています。例えば、外国のドメインを持つウェブサイト上の英語テキストは、非ネイティブ英語の文章の優れた情報源となります。
また、他のAI検出器とは異なり、当モデルは英語のみに領域を限定しません。実際、言語を一切制限せず、インターネット上に存在するあらゆる言語を用いてモデルを訓練します。これにより、一般的な言語すべてにおいて優れた性能を発揮します。
これまで当社の優れた多言語対応性能について述べてきましたが、他の言語でパングラムを効果的に機能させるために用いた手法は、ESL(英語を第二言語とする学習者)にも非常にうまく応用できると考えています。
優れた汎化と転移のメカニズムを正確に特定することはできませんが、ESLは英語に隣接する言語と見なせる可能性が高いと考えられます。あらゆる言語で良好な性能を発揮するようモデルを最適化することで、特定の言語特有の表現様式、文法構造、語彙選択に過学習するリスクを回避できるのです。 あらゆる言語の人間によるテキストを学習させることで、モデルに英語母語話者だけでなく全人類の書き方を教えます。これにより、母語話者が用いる慣用表現パターンに誤って注目する可能性が低減されます。
当社の能動的学習アプローチこそが、Pangramが競合他社よりもはるかに正確であり、人間のテキストをAIと誤判定するケースが大幅に少ない理由です。
訓練とハードネガティブマイニングを反復的に交互に行うことで、AI生成テキストに最も類似した人間の例を訓練用に発見します。この手法は、AI生成テキストに最も類似した人間の例を抽出するだけでなく、ESLテキストとAI生成テキストの微妙な差異をモデルが理解するのを助けます。さらに、転移効果が高く、モデルが全体的に優れたパターンを学習するのに役立つESL類似例を見つけるのにも貢献します。
モデルが学習するためのAI例文を作成する際、多様なプロンプトを網羅的に使用し、モデルが様々な文章スタイルに汎化できるように努めています。例えば、プロンプトの末尾に「高校生風のスタイルでこのエッセイを書いてください」や「非ネイティブ英語話者のスタイルでこの記事を書いてください」といった修飾語を追加することがよくあります。
多様な文体を生成することで、このモデルはAI言語モデルがデフォルトで採用する書き方だけでなく、AIテキストの根底にある基本的なパターンそのものを学習する。
統計的観点から、我々の合成ミラーパイプラインは、トピックや文章レベル、トーンといった無関係な特徴に対してモデルが不変となるよう設計されている。人間のテキストの特徴に合致する形でモデルにプロンプトを与えることで、各特徴を示す人間とAIの例を同数用意することにより、この不変性を組み込んでいる。
最後に、各新モデル更新の承認前に、極めて包括的かつ厳格な評価と品質保証プロセスを実施しています。
評価においては、質と量の両方に焦点を当てます。例えば、Liang TOEFLデータセットには91例しか含まれていないため、このデータセットのみを使用した場合、ESLにおける偽陽性率の非常に大まかな推定値しか得られません。 たった1例の間違いでも、偽陽性率1.1%と報告されるため、真の偽陽性率が1%未満のモデル間の差異を判別できません。
偽陽性率を1%よりはるかに低く抑えることを目指しているため(目標とする偽陽性率は1万分の1から10万分の1の範囲)、その精度レベルを確認するには数百万の事例を測定する必要があります。
大規模な評価を実施することで、モデルが示す失敗モードに対する理解を深め、より優れたデータを活用し、失敗ケースに特化したアルゴリズム戦略を考案することで、時間をかけてそれらを修正することが可能となります。
当社の測定結果、詳細な評価結果、および説明可能な緩和策を通じて、Pangramは非母語話者においても十分な精度を有しており、教育現場での導入が可能であると確信しています。
しかし、十分に偏りのないAI検出器を導入しただけでは、学術的誠実性プロセスにおけるあらゆる形態の偏りを防ぐには不十分である。教育者は、偏りが無意識の形で現れる可能性があることを認識すべきである。例えば、教育者がESL(英語を第二言語とする)学生は誠実さに欠けるという潜在的な疑念から、非ネイティブ英語話者の提出物に対してAI検出器を使用する傾向が強い場合、それは偏りの形態である。
さらに、教師は、英語が母国語ではない学生は、英語が母国語である学生に比べ、学業において本質的な不利な立場にあることを認識しておく必要があります。ESL の学生は、文章力を向上させるために ChatGPT などの外部ツールを使用する傾向が強く、それを多用すると AI 検出ソフトウェアにフラグが立てられます。そのため、どのような AI 支援が許可され、どのような支援が許可されないかについて、学生と明確にコミュニケーションを図るために、パーキンズ AI 評価尺度(Perkins AI Assessment Scale)の使用をお勧めします。
最後に、学生はストレスやプレッシャーにさらされた時、特に仲間と比較して自己効力感の欠如を感じた時、そして不正行為ツールの使用が成功への唯一の手段だと感じた時に不正を行うことがわかっています。教育者には、こうした懸念に積極的に対処するよう促します。具体的には、該当する学生への支援を提供し、どのような支援が利用可能で許可されているかを明確に伝え、また教室に入る時点で既に不利な立場にある学生に完璧な英語を求めない評価戦略の再考を検討することが挙げられます。
パングラムは、教育者が学生の学習を支援する最善の方法を理解できるよう、学術的誠実さを支えるツールとして活用されるべきである。
当社の研究およびAI検出ソフトウェアにおけるバイアス軽減手法について詳しく知りたい場合は、info@pangram.com までお問い合わせください。