Proofigとの新たな提携を発表!詳細はこちら

パングラムは、ChatGPT、Claude、Geminiなどによって生成されたAIテキストを検出する分野でトップクラスのソフトウェアであり、AIが書いたテキストと人間が書いたテキストを区別します。
私たちはさらに一歩進み、AI生成コンテンツを検出できるだけでなく、AI生成テキストがどの大規模言語モデル(LLM)から生成されたかを特定できる高度なモデルをリリースします。この新技術を「AI識別」と呼びます。
直感的に、人々は異なるLLMがそれぞれ異なる文章スタイルを持つことに気づき始めている。例えば、ChatGPTは非常に直接的で率直なことで知られ、Claudeはより流暢で会話的なことで知られ、Grokは検閲がなく挑発的なことで知られ、Deepseek-R1はとりとめがなく冗長なことで知られるようになってきている。
グラハム・ノイビグは、様々な大規模言語モデル(LLM)の文体傾向を茶化している
イーサン・モリックはクロード・ソネットの気さくな人柄について思いを巡らせる。
カリフォルニア大学バークレー校のリサ・ダンラップ氏らによる最近の研究では、異なる大規模言語モデル(LLM)の質的差異(非公式には「雰囲気」)が調査された。その結果、「LlamaはGPTやClaudeよりもユーモアに富み、書式設定を多用し、例を多く提供し、倫理に関するコメントがはるかに少ない」など、多くの興味深い発見があった。 この結果は、モデルの性能が必ずしも人間の好みに合致しないことを示唆している。GPT-4やClaude-3.5がLlamaシリーズより高度なモデルであるにもかかわらず、Chatbot Arena(同じプロンプトへの回答に対する好みを基にしたクラウドソーシング型Eloランキング)では、Llamaが常に実力以上の成果を上げているように見えるのだ。 Chatbot Arenaで高評価を得るモデルは、本当に賢く能力が高いのか?それとも単に人間の心理を巧みに利用し「好感度」を高めているだけなのか?また、一部のモデルが他より有用で好感度が高い場合、博士レベルの問題解決能力が劣ることは重要なのか?こうした疑問は研究に値するものであり、Chatbot Arenaのようなシステムが従来のモデル評価手法よりも有用であるかを理解する上で重要な課題である。
パングラムでは、私たちのモデルがこれらの雰囲気を利用して、これらのLLMを識別し区別できる可能性について考察しました。
人間の文章とAI生成文を区別するように基本AI検出モデルを訓練するのと同じように、マルチタスクリニングと呼ばれる手法を用いて、同じ検出モデルをAI識別を行うよう訓練します。具体的には、広範な実験を通じて特定した9つのファミリーに、様々な言語モデルを分類します。
家族は以下の通りです:
これを実践的に実現する方法は、ニューラルネットワークに別の「ヘッド」を追加することです。AI検出タスクを教師あり学習させる際、モデルラベルをネットワークに渡し、AI識別における誤差と検出予測の両方をバックプロパゲーションすることで、AI識別タスクも同時に教師あり学習させます。
画像出典: GeeksForGeeks
モデルのほぼすべての層は2つのタスクで共有され、最終予測層のみが分割される。
マルチタスク学習においては、同時に学習すると互いに助け合うタスクもあれば、互いに妨げ合うタスクもあることがわかっている。 生物学では、共生と寄生という類似の概念が存在する。例えば、イソギンチャクに生息するクマノミは共生の好例である:クマノミはイソギンチャクを傷つける捕食者を捕食する一方で、イソギンチャク内部に潜み擬態することで自らの天敵から身を守っている。
LLM識別タスクを追加することは、LLM検出タスクと相乗効果をもたらすことが判明した。つまり、AI生成テキストを検出するだけでなく、そのテキストが生成されたモデルを特定するようモデルに要求することは、AI検出能力の向上に全体的に有益である。他の研究者らも、様々なLLMが人間のテキストと区別できるだけでなく、相互にも区別可能であることを確認している。

埋め込みとは、テキストの一部を数値ベクトルとして表現したものです。埋め込みの実際の値は単独では意味を持ちませんが、2つの埋め込みが互いに近い場合、それらは類似した意味、あるいは類似したスタイルを持っていることを意味します。UMAPと呼ばれる技術を用いることで、非常に高次元である埋め込みを2次元空間で可視化できます。 著者らは、人間とLLMが作成した文書をスタイル埋め込みに変換すると(上図参照)、同一LLMに対応する文書は埋め込み空間で分離可能であることを発見しました!これは、全体として同一LLMが生成した文書は、異なるLLMやLLMと人間が作成した文書よりもスタイルが近接していることを意味します。
この結果により、ソースとなるLLMを識別できる分類器が実現可能であるという確信を得た。
当モデルは、AI生成テキストがどのLLMファミリーに由来するかを93%の精度で特定します。 以下は混同行列です。これは、モデルが各LLMファミリーを正しく識別する頻度(対角線上のセル)と、あるLLMを別のLLMと誤認する頻度(対角線外のセル)を示しています。色が濃いほど、そのセルに予測結果が多く分類されます。完全なモデルでは、対角線上にのみ濃い四角形が並び、それ以外の領域はすべて白くなります。

混同行列に関するいくつかの興味深い観察事項:
モデルファミリー間では混同がより頻繁に発生する。例えば、GPT-4はOpenAIの推論シリーズと頻繁に混同される。これは当然のことである。なぜなら、GPT-4はOpenAIの推論モデルの構成要素、あるいは出発点である可能性が高いからだ!
モデルは特定のLLMよりも「その他」とLLMを混同する頻度が高い。これはモデルが確信を持てない場合、特定のLLMを特定するよりも「その他」にデフォルトする傾向が強いことを示している。
LLM分類器は完璧ではないものの、多くの場合正確であり、最も重要な点は、LLM分類器が誤った判断を下す場合、特定のAIシステムを他のAIシステムと混同するものの、AIシステムの出力を本物の人間の文章と混同することはない。
AI検出を超えてAI識別も解決することが重要だと考えた理由はいくつかあります。
まず、AI検出器自体の性能強化には、単なるAI生成の判定よりも困難な課題である「異なるLLMの文体区別」をモデルに学習させることに意義があると考える。モデルに通常以上の能力を要求することで、ある意味で高度なスキルと潜在的な知識を獲得させ、AI生成テキストの検出精度向上につながる汎化能力を育んでいるのである。
解釈可能性は、LLM分類器の結果を表示したいもう一つの理由です。モデルが内部で実際に何をしているのかを理解しており、単なるランダムな推測(他の多くのランダム検出器のように)ではないという確信を築きたいと考えています。AIスコアだけでなく、テキストがどのLLMから生成されたかを示すことで、AIの文章スタイルのニュアンスを理解するモデルの能力に対する信頼を構築したいと考えています。
最後に、時間の経過に伴うパターンを発見したいと考えています:実際にどのLLMがどの程度の頻度で使用されているのか?学生、詐欺師、プログラマーそれぞれが選択するLLMは何か?これらは今後の研究で解明できる可能性のある課題です。
当社のAI識別機能をぜひお試しいただき、様々なLLMファミリーの固有の性格やスタイルを理解する一助となれば幸いです。詳細については、info@pangram.com までお問い合わせください!