Proofigとの新たな提携を発表!詳細はこちら

パングラムのAI検出器は20以上の言語で高い性能を発揮する

ブラッドリー・エミ
2024年9月4日

2か月前、Pangramは初の多言語AI検出モデルをリリースしました。今回、アップデートを発表できる段階に至りました!Pangramは現在、インターネット上で主要な20言語を正式にサポートし、さらに多くの言語でも非公式ながら良好な性能を発揮します。特にアラビア語、日本語、韓国語、ヒンディー語において、著しく強化された高い性能を確認しています。

結果

公式サポートセットでは、各言語につき約2,000件の文書を評価しました。人間によるコンテンツは、実際のレビュー、ニュース記事、ウィキペディア記事で構成されています。AIによるコンテンツは、GPT-4oに様々な長さ、スタイル、トピックで生成させたエッセイ、ニュース記事、ブログ投稿の集合体です。

言語精度偽陽性率偽陰性率
アラビア語99.95%0.10%0.00%
チェコ99.95%0.00%0.11%
ドイツ語99.85%0.00%0.32%
ギリシャ語99.90%0.00%0.21%
スペイン語100.00%0.00%0.00%
ペルシャ語100.00%0.00%0.00%
フランス語100.00%0.00%0.00%
ヒンディー語99.79%0.00%0.42%
ハンガリー語99.49%0.10%0.95%
イタリア語100.00%0.00%0.00%
日本語100.00%0.00%0.00%
オランダ語99.95%0.10%0.00%
ポーランド語100.00%0.00%0.00%
ポルトガル語100.00%0.00%0.00%
ルーマニア語99.95%0.10%0.00%
ロシア語100.00%0.00%0.00%
スウェーデン語99.95%0.00%0.11%
トルコ語99.90%0.00%0.21%
ウクライナ人99.95%0.00%0.11%
ウルドゥー語99.44%0.00%1.16%
ベトナム語99.95%0.00%0.11%
中国語99.95%0.00%0.11%

私たちは何を変更したのか?

多言語サポートを改善するために実施した主な変更点は以下の通りです:

  • インターネット上で使用頻度の高い上位20言語に焦点を当て、ウェブ規模のデータに対して能動的学習データキャンペーンを実施した。

  • 非英語言語のサポートを強化するため、トークナイザーを変更しました。

  • ベースモデルとLoRAアダプターのパラメータ数を増加させました。

  • トレーニング前に、データセットのランダムな一部を機械翻訳するためにデータ拡張を適用した。

  • 東アジア言語がトレーニングセットで意図せず過小評価される原因となっていた単語カウントのバグを修正しました。

能動的学習キャンペーン

極めて低い誤検知率を実現するモデル構築プロセスの核心はアクティブラーニングにあります。具体的には、2022年以前のインターネットからモデルの性能が低い事例(例:誤検知)を抽出、それらを訓練データに追加し、再訓練を反復します。このアルゴリズムの詳細は技術報告書に記載しています。

我々の能動的学習アプローチをウェブ上の大規模多言語データセットに適用し、現行モデルが苦戦する多言語テキストを特定できる。このデータを活用し、大規模なプロンプトライブラリと組み合わせて反復処理を行うことで、採掘した偽陽性例に類似したAI生成テキスト(合成ミラー)を生成する。 インターネット上で上位20言語に焦点を当てつつ、データパイプラインから言語フィルタリングステップを排除します。つまり、あらゆる言語のテキストがハードネガティブマイニングの対象となり、トレーニングセットに組み込まれる可能性があります。

当社のアクティブラーニング手法の利点の一つは、モデルの精度に基づいて言語の分布を自動的に再調整することです。リソースの少ない言語はオンライン上で過小評価されがちですが、このクラス不均衡のため、初期モデルはリソースの少ない言語で性能が低下します。その結果、ハードネガティブマイニング実行において、より多くの非主流言語テキストが浮上するのです。 アクティブラーニングの過程において、英語・スペイン語・中国語などの高リソース言語のデータは訓練セット内で徐々に割合を減らし、より珍しい言語の割合が増加していくことが確認されています。これは多言語モデル訓練における自然な不均衡データ分布に対する比較的洗練された解決策であると考えられます。当社のアクティブラーニングアルゴリズムを通じて、モデルは自ら必要とする言語のデータを自ら選択できるようになります。

アーキテクチャの変更

入力ドメインにおける多言語テキストをより適切にサポートするため、分類器構築に使用する基盤LLMが英語以外の多くの言語にも広く対応できることを確認する必要がありました。 当社データセット上で複数のLLMバックボーンとトークナイザーを網羅的に検証し、広範な非英語圏言語において総合的に最良の性能を発揮する組み合わせを特定しました。その結果、多言語ベンチマークでの性能は、当社のAI検出タスクにおけるバックボーンの性能と強い相関関係を示さないことが判明しました。つまり、ベースモデルが他言語での推論タスクや質問応答を解決できても、そのスキルが多言語AI検出へ転移する効果は極めて大きく変動するのです。

また、初期に学習させたモデルは新しい多言語分布に対して過小適合する傾向があることも判明しました——当初は高い学習損失が観測されました。このため、ベースモデルのサイズとLoRAアダプターのパラメータ数を増加させるとともに、モデルの学習ステップ数を増やしました。 (アクティブラーニング/高データ環境下では、1エポックを超える訓練はほぼ行わないため、今回は単にエポックサイズを拡張する必要があった!)

データ拡張

能動的学習を用いても、非英語圏のデータの多様性はオンライン上の英語データの多様性や量に比べて明らかに低く、トレーニングセットの言語分布を再調整するだけではこれを完全に是正することはできない。 端的に言えば、英語データには価値があるものの、他の言語では存在しない、あるいはネイティブな対訳が存在しないデータが存在する。そこで我々は、データセットのごく一部に対して機械翻訳による拡張をランダムに適用することを決定した(本ケースではAmazon Translateを使用)。

大規模言語モデル(LLM)の訓練において、機械翻訳による拡張を訓練データセットに適用することは標準的な手法ではない。機械翻訳データは不自然で「翻訳臭」が強く出やすいという事実があるためだ。しかし我々のケースでは、生成モデルを訓練しているわけではないため、出力品質に影響を与えるようには見えず、この拡張を適用することで評価指標の改善が確認された。

ベンチマーキング:スペイン語

スペイン語を、以前はPangram Textでサポートされていた高リソース言語の特徴的な例として取り上げ、現在は大幅に改善されていることを示す。様々な領域において偽陽性率を測定する。

データセット偽陽性率(以前)偽陽性率(後)例の数
スペイン語版Amazonレビュー0.09%0%20,000
ウィキリンガ(WikiHowの記事テキスト)3.17%0.14%113,000
XL-SUM(スペイン語ニュース記事)0.08%0%3,800
スペイン語版ウィキペディア0.29%0.04%67,000
スペイン文化X0.22%0.01%1,800,000
手作業で厳選したスペイン語ブログ記事0%0%60

また、様々な大規模言語モデル(LLM)について、偽陰性率(AI生成テキストが誤って人間によるものと分類される割合)を測定しました。この実験では、LLMが様々な長さやスタイルのエッセイ、ブログ記事、ニュース記事を生成するためのプロンプトリストを作成し、それらをスペイン語に翻訳しました。LLM自体は多言語対応であるため、スペイン語の指示にも応答します。

モデル偽陰性率(以前)偽陰性率(後)例の数
GPT-4o2.1%0%1,400
クロード3.5 ソネット0.7%0%1,400
クロード3番作品1.05%0%1,400
ジェミニ 1.5 プロ2.85%0%1,400

ご覧の通り、更新したモデルはテスト対象の全LLMにおいて完全な検出を達成し、以前のバージョンから大幅な改善を実現しています。

ベンチマーキング:アラビア語と日本語

私たちが最も重点的に改善に取り組んだ言語のうち2つは、世界で広く話されているものの、実際にはインターネット上ではあまり一般的ではない言語です——アラビア語と日本語です。

データセットアラビア語の偽陽性率日本の偽陽性率アラビア語の例日本語の例
Amazonレビュー0%0%該当なし20,000
AR-AES(アラビア語学生作文)0%該当なし2,000該当なし
ウィキリンガ(WikiHowの記事テキスト)0.58%0.55%29,00012,000
XL-SUM(現地語ニュース記事)0%0%4,000733
ウィキペディア0.09%0.009%31,00096,000
カルチュラエックス0.08%0.21%1,785,0001,409,000
手作業で厳選したブログ記事0%0%6060

従来はこれら2言語に対応していなかったため、偽陰性率が極めて高くなっていました。現在ではAI生成のアラビア語と日本語を非常に高い精度で確実に予測できるようになりました。

モデルアラビア語 FNR日本FNR
GPT-4o0%0%
クロード3.5 ソネット0%0%
クロード3番作品0%0%
ジェミニ 1.5 プロ0%0.21%

ご覧の通り、更新したモデルはアラビア語と日本語の両方において、テスト対象の全LLMでほぼ完璧な検出を実現しています。日本語におけるGemini 1.5 Proの偽陰性率はわずか0.21%に留まっています。

言語ベンチマークの完全な結果は、ご要望に応じてご提供いたします。

次に何をする?

ネイティブのウェブテキストでは高い性能を発揮する一方、当モデルは「翻訳臭」——不自然な翻訳や不自然な表現——の検出に時折苦戦します。さらに問題なのは、ChatGPTのようなLLMを直接翻訳タスクに利用するユーザーが増えている点です。LLM翻訳テキストを「人間」か「AI」と分類すべきか?それは翻訳の不自然さの度合いと、下流の応用シナリオによって異なります。 スペイン語教師は課題への機械翻訳使用を不正行為と見なすかもしれないが、出版社は翻訳作品を品質保証プロセスで通過させたいと考えるかもしれない。Pangramは翻訳テキストを人間とAIの中間にある「第三のモダリティ」として理解し、ユーザーにより多くの情報を提供することで、モデルの downstream 利用者自身が適切な判断を下せるよう積極的に取り組んでいる。

ご質問がございましたら、info@pangram.com までお問い合わせください!

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。