Proofigとの新たな提携を発表!詳細はこちら
本稿のアイデアと、本投稿で使用した視覚資料の一部について、カリフォルニア大学デーヴィス校の学生支援・司法担当副部長、マリリン・ダービー氏に感謝いたします。また、学生による文章と AI による文章の特徴を区別する上で、優れた参考資料を提供してくださった、カリフォルニア州ビューポイント・スクールの英語学科長、アマンダ・クラーク氏にも感謝いたします。
おそらくあなたはエッセイを受け取り、その文章が自分のクラスの生徒のものではないという直感的な確信を持っている。それをPangramでチェックすると、99.9%の確信度でその文章がAI生成であると判定される。
あるいは、あなたが学術倫理担当官で、教授が学生の作品をAI生成の剽窃として報告したにもかかわらず、学生と保護者がその学生が自分で書いたと断固として主張している場合もある。
その文章を読めば、AIが書いた証拠がそこかしこに散りばめられている。「今日の技術時代において」と文章は始まる。学生は「著者は多様な視点という豊かなタペストリーを通して、細部を複雑に織り交ぜている」と説明する。文法的に完璧で均整の取れた構成のエッセイは、定番の「結論として…」あるいは「全体として…」というフレーズで締めくくられる。
心の奥底では、生徒が課題を自分で書いていないと分かっているのに、どうしても証明できない。説得しようとしている人々が「AI検出ツールは機能せず信用できない」とか「確実に見分けるのは不可能だ」と言う時、あなたはどうしますか?
以前にも議論した通り、AI検出による陽性判定は議論の始まりに過ぎず、学生に対する懲罰的措置を検討する際には単独で判断材料となることはありません。当社製品の高精度には自信を持っていますが、重大な問題が関わる場合には包括的なアプローチを採用すべきであり、AI検出スコアの後にさらなる証拠を収集し、学生の作業が真正性や独創性を欠くことを合理的な疑いの余地なく立証する必要があると考えています。
本日は、こうしたケースにおいて追加の証拠を収集するための7つの戦略について説明します。
AI生成文は特定のフレーズや語彙選択によって「見破られる」ことは決してない。パングラムはテキスト内の多くの微弱なシグナルの蓄積に基づいて判断を下す。同様に、AI生成文に存在する多くのシグナルを探し出し、それらを総合的に用いることで、AIのシグナルが偶然に現れたものではないことを示せる。まずAI特有のフレーズを特定し、頻繁に現れるかどうかを確認すべきです。明確な事例では、AI生成文にこれらが大量に含まれるため、以下のサンプルのように偶然の一致とは言い難い状況が生じます。
一般的なAIのフレーズと単語
ジェナ・ラッセルのガイドでは、AIでよく使われる語彙や表現パターンの包括的なリストを確認できます。
パングラムはこれらのフレーズを頻度と共に自動的に抽出することも可能です。重要なのは、これらのフレーズのいずれか一つがテキストがAI生成された証拠にはならない点ですが、多くのフレーズが組み合わさると非常に強力な証拠となります。なぜなら、これら全てのフレーズが偶然に現れる可能性は極めて低くなるからです。
AIフレーズ頻度分析の例
個々の単語やフレーズのレベルを超えて、AIライティングの高次な特徴も探ることができます。
学生の文章とAI生成文の見分け方ガイド
アマンダ・クラークによるこの優れたガイドは、学生の文章とAI生成文章に見られるスタイルやトーンの違いをいくつか示しています。ガイドを要約すると、最も重要なポイントは以下の通りです:
また、学生の実際の文章とAI生成の文章が混在している場合、文体やトーンに突然の変化が生じることが多い点にも留意すべきである。
学生が自ら執筆した作品には、文書作成のプロセス——ブレインストーミング、アウトライン作成、草稿執筆、推敲、校正——が反映されている。一方、生成AIから盗用された作品は、単にコピペされたものに過ぎないことが多い。
生徒のライティングプロセスの証拠を確認する簡単な方法は、単に成果物(アーティファクト)を提出させることです。ノート、ブレインストーミング、アウトラインを提出させましょう。最終稿の場合は、下書きの提出を求めます。多くの場合、これだけでライティングプロセスの証拠を確認できます。正直な生徒はそれを証明することを恐れませんが、不正行為を行う生徒はこうした成果物を提出できないことが多いのです。
生徒の執筆プロセスを確認するツールも利用可能です。例えばDraftbackはChrome拡張機能で、Googleドキュメント上で生徒の執筆履歴を再生できます。Brisk Teaching、Cursive Technologies、Visible AIといったツールも存在します。Pangramと組み合わせることで、これらのツールは強力な機能を発揮します。
ドラフトバック再生データの例
上記のDraftbackトレースでは、学生が文章を編集していた箇所や、大きなコピー&ペーストがあったかどうかを確認できます。
執筆プロセスツールのみを絶対的な証拠と見なすべきではない。教師が学術的誠実性を確認するため改訂履歴をチェックする現状を踏まえ、学生はコピー&ペーストが脆弱性を露呈させる事実を熟知している。一部の学生はChatGPTの出力をそのまま文書に転記し、自ら執筆したように見せかけるだろう。
さらに悪いことに、改訂履歴を偽造するソフトウェアツールが存在する。例えばこの「Human Auto Typer」というChrome拡張機能などだ。
「Human Auto Typer」Chrome拡張機能の例
生徒の執筆過程や修正履歴を検証することは有用である一方、生徒がこうした単純なチェックを回避する方法が現在存在することに注意が必要である。
生成AIはしばしば引用をでっち上げたり、出典を誤って引用したり、作品の帰属に関する明らかな誤りを犯す。AIチャットボットが自らの主張を裏付ける出典を知らない場合、ほとんどの場合、架空の引用を平然とでっち上げる。以下のクロードの例を参照のこと。
クロードによる引用文の捏造例
引用ミスはAI関連の不正事例において最も有力な証拠となることが多い。というのも、研究資料の意図的な改ざん自体が学術的誠実性の違反にあたるからだ。多くの場合、参考文献リストや引用文献を確認し、記載された論文が実在するかどうかを調べるだけで十分である。最初の論文をGoogleで検索した際に実在しない場合、それは不正行為の極めて強力な証拠となる。
繰り返すが、注意が必要だ:実際の引用が、学生がAIを使用しなかったことを確実に示すわけではない。Deep ResearchやPerplexityといった新ツールは実際に正しい出典を引用し、チャットボットも虚偽の出典をでっち上げないよう急速に進化している。
学生の作業がオリジナルか偽造かをチェックする最も簡単な方法の一つは、単に論文について質問することです。提出物の文章レベルが学生の実際の文章レベルと一致しない場合、文章の中で最も複雑な部分について質問してください。 特に低学年の生徒の場合、ChatGPTがよく使用するものの、そのレベルの生徒が決して使わない複雑な単語(例:「公理的」)の意味を尋ねるだけで、生徒がAIを使用したことを認めることがよくある。
大学レベルでは、学生が斬新で独創的なアイデアを提示することが求められるため、そのアイデアをどのように思いついたのかを尋ねるのがよいでしょう。こうした質問はしばしば執筆プロセスに関する議論へと発展し、第2項で述べたように、文章がどのように構成されたかについての情報を収集する機会となります。
共感を持って接し、議論のための安全な場を設けることが重要です。学生との学術的誠実性に関する話し合いは大きなストレスを伴う可能性があり、証拠を提示されると学生は防御的になるかもしれません。学生との対話を構築する最善の方法は、単に何が起きたのかを真摯に理解することです。そうすることで、学生が将来成功できるよう最善を尽くして支援できます。 学生に過ちを正す機会を与え、なぜ自ら課題に取り組まずAIに頼らざるを得なかったのか説明させるべきです。また、AI使用が意図的な不正行為ではなく誤解の結果であった可能性にも開かれた姿勢で臨むことを推奨します。こうした対話の進め方については、過去のブログ記事で詳しく解説しています。
特に若い学生や成長途上の学生に当てはまるが、AIによる文章生成は、学生の文章から予想される水準を大きく上回る場合が多い。
学生の過去の作文例を提出させることをお勧めします。大学には他の授業のエッセイを閲覧できる中央データベースが設置されている場合が多いです。その学生が初めての場合は、遠慮なく前任の教師に当該学生の作文サンプルを数点提供するようお願いしてください。
文章が下手な生徒が、突然完璧なスペルと文法で書くようになるのは、懸念すべき事態である。
ChatGPTの出力には通常、大きなばらつきは見られません。同じプロンプトを二度入力しても全く同じテキストが返されることはありませんが、偶然では説明しがたいほど類似した内容が生成されることが頻繁にあります。
ChatGPTとの並列比較例
Pangramの「並列表示」機能を使用すると、提出内容をChatGPTの提出内容と自動的に並べて表示できます。フレーズが完全に一致するわけではありませんが、意味が非常に類似しているフレーズをハイライト表示し、関連付けます。
別の手法として、ChatGPTから複数の応答を生成し、その類似性を確認する方法がある。提出物が群れの中から容易に特定できない場合、これもAI生成の可能性が高い。
課題の内容を知っていると便利です。そうすれば、その課題をそのままChatGPTのプロンプトとして使用できます。しかし課題が不明な場合でも、合理的なプロンプトを考案することは可能です。参照しているエッセイのような文章を生成できるほど具体的でありながら、単純なコピーで全く同じものにならない程度のプロンプトを考え出してみてください。 この目的にはChatGPT自体を活用できる:対象のエッセイをChatGPTに貼り付け、「論文が扱っている主なアイデア・トピック・論点は何か」と質問する。複数のプロンプトを試して意味的に類似したエッセイを生成できるものを見つけ、スタイルが一致するか確認する。
ラッセルらによるメリーランド大学の研究(以前議論した内容)によれば、専門家はテキストがAI生成か否かを92.7%の精度で判定できる。しかし5人の専門家からなる評議会が多数決で判断する場合、ほぼ完璧な精度を達成する(研究者が調査した300のテキストにおいて、多数決は100%の精度で正確であった)。
部署内や学校内で、AI生成テキストを目視で判別する方法を他者に指導することを推奨します。これにより、判断が難しいケースにおいて複数の意見を得られるようになります。各個人が察知する様々な兆候について話し合うことは、文章の真正性を評価する自信を深める優れた方法です。
さらに、法的な問題に隣接するあらゆる事例と同様に、個人の意思決定には学生の制御外の理由による無意識的または意識的な偏りが生じ得る。学生が学術的誠実性を侵害したか否かを判断する際に複数人による審査委員会を活用することは、判断の精度を高めるだけでなく、最終的には審査プロセスの公平性向上にも寄与するはずである。
このブログ記事では、スコアを超えた活用法として、パングラムやその他のツールを用いて、AIの不適切な使用を立証するための証拠構築、あるいはAI不正使用の疑いをかけられながら実際には無実の学生を擁護するための証拠構築に役立てる方法をいくつか検討しました。
事件の結末を決定づける上で、絶対的な証拠など存在しない。しかし、収集し蓄積できる証拠が多ければ多いほど、学術的誠実性に関する手続きはより公平で正当性を保てるものとなる。