Proofigとの新たな提携を発表!詳細はこちら

パングラムテキスト更新:GPT-4o、Claude 3、LLaMA 3

ブラッドリー・エミ
2024年5月22日

写真提供:Google DeepMind

本日、市場に登場する新たな大規模言語モデル(LLM)に迅速に対応する当社の能力を誇示できることを嬉しく思います。今回リリースしたモデル更新により、GPT-4o、Claude 3、LLaMA 3で生成されたAIテキストをほぼ完璧な精度で検出することが可能となりました。

要約:

  • Pangram Textの新バージョンをリリースしました。GPT-4o、Claude 3、LLaMA 3でのパフォーマンスが向上しています。
  • 当社のインフラストラクチャパイプラインは、新規モデルが公開され次第、大量のAIテキストを迅速に取り込むように設計されています。
  • これらの新モデルの性能がすべてGPT-4レベルに収束するにつれ、文体も次第に似通ってきていることが判明した。

結果

当社が最近リリースしたモデルは、トレーニングセットに例が一切含まれていないにもかかわらず、新モデルの出力検出においてかなり高い精度を示しました。しかし、単に「かなり良い」という結果に満足しているわけではありません。AI検出技術の可能性の限界を絶えず押し広げ、お客様にとって最高の精度を実現することを目指しています。

次世代言語モデルにおける性能評価のため、分類が困難な人間によるテキストとAI生成テキストの25,000例からなる評価セットを刷新しました。この新たな評価セットの約40%は、GPT-4o、Claude 3、LLaMA 3による多様なAI生成テキストで構成され、ニュース、レビュー、教育など複数のテキスト領域を網羅しています。

利用可能な場合は新モデルの全バージョンを使用します:例えば、Claude 3のOpus、Sonnet、Haikuの各バージョンから均等にサンプリングします。

最新のLLMを組み込むためトレーニングデータセットを更新した結果、最新世代の言語モデルが生成するテキストにおいて、再びほぼ完璧な精度を達成していることが判明した。

LLMパングラムテキストの3月精度パングラムテキストの正確性% 改善率
すべて99.54%99.84%+0.30%
GPT-4o99.78%100%+0.22%
クロード399.12%99.76%+0.64%
LLaMA 399.58%99.97%+0.39%

新モデルでの性能向上に加え、最新世代モデルの学習データを含めることで、いくつかの旧モデルにおいても性能がわずかに向上することが判明した。

従来のモデル評価セットにおいて回帰現象を引き起こすことなく、GPT-3.5および(通常の)GPT-4検出において複数のケースで実際に改善が確認されました。具体的には、従来モデルが検出に失敗していたGPT-3.5ケース8件が検出可能となり、GPT-4ケース13件が検出可能となったことが判明しています。 したがって、当モデルがGPT-4o、Claude 3、LLaMA 3の検出能力を向上させたことで、旧モデル検出能力が損なわれることはないと結論づける。

時代の先端を行く

当初から大規模言語モデル(LLM)の境界が急速に変化することを認識していたため、その点を考慮してシステムアーキテクチャを設計しました。当社のシステムは、新しいAPIが公開されてから数時間以内にデータを再生成し、新たなモデルのトレーニングを開始できるよう構築されています。

新モデルがリリースされた際、新たなデータセットを生成しモデルを再学習させる作業は設定変更だけで完了します。当社ではLLMに投入することで、データセットの人間側と近似しつつも同一ではない人間らしいテキストを生成するプロンプトテンプレートの標準ライブラリを保有しています。この「合成ミラーを用いたハードネガティブマイニング」と呼ばれる手法の詳細は技術報告書に記載されています。

この新型モデルのリリーススケジュールは以下の通りでした:

5月13日:GPT-4oがリリースされ、OpenAI APIで利用可能となった。 5月14日:データセットパイプラインが更新され、新たなトレーニングセットと評価セットが作成された。 5月15日~16日:新たなデータセットを用いてAI検出モデルが訓練された。 5月17日:QAおよび健全性チェックが実施され、モデルがリリースされた。

構築したインフラにより、新たなモデルのテキストをわずか1週間で生産用検出システムに組み込むなど、迅速な適応が可能となっています。

限界効用の逓減?

新しいモデルがどんどん良くなるにつれて、検出が難しくなるはずですよね?この魅力的だが結局は誤った主張を裏付ける証拠は、まだ見つかっていません。

観察上、より高性能なモデルは、その独特な作風ゆえに、実は性能の低いモデルよりも検出が容易であることが判明している。例えば、我々の旧モデルはソネットや俳句よりもクロード・オーパスを検出するのに優れていた。

LMSYSのリーダーボードで見られるように、多くの基盤モデルがGPT-4の水準に漸近的に収束しつつあるものの、現時点でそれを大幅に上回るモデルは存在しない。 状況を俯瞰すると、複数の基盤モデル企業が同じ注意ベースのアーキテクチャを採用し、インターネット全体で学習させた場合、すべてのモデルから出力される言語が驚くほど似通ったものになるのは当然の結果と言える。言語モデルを日常的に扱う者なら、この意味を即座に理解するだろう。

観察レベルでは、LLMが意見文やレビュー、創作短編など創造的で本物らしい文章を書くよう求められた場合、依然として想像力に欠けた味気ない駄文を生成することが確認されている。これは本質的に、分布外の新奇な思考やアイデアを避けつつ、高確率で完結する文を生成するという最適化目標の特性に起因すると我々は考えている。

私たちは仲間の人間によるオリジナルな文章を、それが新鮮な視点や異なる考え方をもたらす可能性があるから価値あるものと見なすのであり、人が言う平均的な内容だからではない。この価値が真実である限り、AI検出の必要性は常に存在し、それを解決する道筋も常に開かれているだろう。

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。