Proofigとの新たな提携を発表!詳細はこちら
2か月前、Pangramは初の多言語AI検出モデルをリリースしました。今回、アップデートを発表できる段階に至りました!Pangramは現在、インターネット上で主要な20言語を正式にサポートし、さらに多くの言語でも非公式ながら良好な性能を発揮します。特にアラビア語、日本語、韓国語、ヒンディー語において、著しく強化された高い性能を確認しています。
公式サポートセットでは、各言語につき約2,000件の文書を評価しました。人間によるコンテンツは、実際のレビュー、ニュース記事、ウィキペディア記事で構成されています。AIによるコンテンツは、GPT-4oに様々な長さ、スタイル、トピックで生成させたエッセイ、ニュース記事、ブログ投稿の集合体です。
| 言語 | 精度 | 偽陽性率 | 偽陰性率 |
|---|---|---|---|
| アラビア語 | 99.95% | 0.10% | 0.00% |
| チェコ | 99.95% | 0.00% | 0.11% |
| ドイツ語 | 99.85% | 0.00% | 0.32% |
| ギリシャ語 | 99.90% | 0.00% | 0.21% |
| スペイン語 | 100.00% | 0.00% | 0.00% |
| ペルシャ語 | 100.00% | 0.00% | 0.00% |
| フランス語 | 100.00% | 0.00% | 0.00% |
| ヒンディー語 | 99.79% | 0.00% | 0.42% |
| ハンガリー語 | 99.49% | 0.10% | 0.95% |
| イタリア語 | 100.00% | 0.00% | 0.00% |
| 日本語 | 100.00% | 0.00% | 0.00% |
| オランダ語 | 99.95% | 0.10% | 0.00% |
| ポーランド語 | 100.00% | 0.00% | 0.00% |
| ポルトガル語 | 100.00% | 0.00% | 0.00% |
| ルーマニア語 | 99.95% | 0.10% | 0.00% |
| ロシア語 | 100.00% | 0.00% | 0.00% |
| スウェーデン語 | 99.95% | 0.00% | 0.11% |
| トルコ語 | 99.90% | 0.00% | 0.21% |
| ウクライナ人 | 99.95% | 0.00% | 0.11% |
| ウルドゥー語 | 99.44% | 0.00% | 1.16% |
| ベトナム語 | 99.95% | 0.00% | 0.11% |
| 中国語 | 99.95% | 0.00% | 0.11% |
多言語サポートを改善するために実施した主な変更点は以下の通りです:
インターネット上で使用頻度の高い上位20言語に焦点を当て、ウェブ規模のデータに対して能動的学習データキャンペーンを実施した。
非英語言語のサポートを強化するため、トークナイザーを変更しました。
ベースモデルとLoRAアダプターのパラメータ数を増加させました。
トレーニング前に、データセットのランダムな一部を機械翻訳するためにデータ拡張を適用した。
東アジア言語がトレーニングセットで意図せず過小評価される原因となっていた単語カウントのバグを修正しました。
極めて低い誤検知率を実現するモデル構築プロセスの核心はアクティブラーニングにあります。具体的には、2022年以前のインターネットからモデルの性能が低い事例(例:誤検知)を抽出、それらを訓練データに追加し、再訓練を反復します。このアルゴリズムの詳細は技術報告書に記載しています。
我々の能動的学習アプローチをウェブ上の大規模多言語データセットに適用し、現行モデルが苦戦する多言語テキストを特定できる。このデータを活用し、大規模なプロンプトライブラリと組み合わせて反復処理を行うことで、採掘した偽陽性例に類似したAI生成テキスト(合成ミラー)を生成する。 インターネット上で上位20言語に焦点を当てつつ、データパイプラインから言語フィルタリングステップを排除します。つまり、あらゆる言語のテキストがハードネガティブマイニングの対象となり、トレーニングセットに組み込まれる可能性があります。
当社のアクティブラーニング手法の利点の一つは、モデルの精度に基づいて言語の分布を自動的に再調整することです。リソースの少ない言語はオンライン上で過小評価されがちですが、このクラス不均衡のため、初期モデルはリソースの少ない言語で性能が低下します。その結果、ハードネガティブマイニング実行において、より多くの非主流言語テキストが浮上するのです。 アクティブラーニングの過程において、英語・スペイン語・中国語などの高リソース言語のデータは訓練セット内で徐々に割合を減らし、より珍しい言語の割合が増加していくことが確認されています。これは多言語モデル訓練における自然な不均衡データ分布に対する比較的洗練された解決策であると考えられます。当社のアクティブラーニングアルゴリズムを通じて、モデルは自ら必要とする言語のデータを自ら選択できるようになります。
入力ドメインにおける多言語テキストをより適切にサポートするため、分類器構築に使用する基盤LLMが英語以外の多くの言語にも広く対応できることを確認する必要がありました。 当社データセット上で複数のLLMバックボーンとトークナイザーを網羅的に検証し、広範な非英語圏言語において総合的に最良の性能を発揮する組み合わせを特定しました。その結果、多言語ベンチマークでの性能は、当社のAI検出タスクにおけるバックボーンの性能と強い相関関係を示さないことが判明しました。つまり、ベースモデルが他言語での推論タスクや質問応答を解決できても、そのスキルが多言語AI検出へ転移する効果は極めて大きく変動するのです。
また、初期に学習させたモデルは新しい多言語分布に対して過小適合する傾向があることも判明しました——当初は高い学習損失が観測されました。このため、ベースモデルのサイズとLoRAアダプターのパラメータ数を増加させるとともに、モデルの学習ステップ数を増やしました。 (アクティブラーニング/高データ環境下では、1エポックを超える訓練はほぼ行わないため、今回は単にエポックサイズを拡張する必要があった!)
能動的学習を用いても、非英語圏のデータの多様性はオンライン上の英語データの多様性や量に比べて明らかに低く、トレーニングセットの言語分布を再調整するだけではこれを完全に是正することはできない。 端的に言えば、英語データには価値があるものの、他の言語では存在しない、あるいはネイティブな対訳が存在しないデータが存在する。そこで我々は、データセットのごく一部に対して機械翻訳による拡張をランダムに適用することを決定した(本ケースではAmazon Translateを使用)。
大規模言語モデル(LLM)の訓練において、機械翻訳による拡張を訓練データセットに適用することは標準的な手法ではない。機械翻訳データは不自然で「翻訳臭」が強く出やすいという事実があるためだ。しかし我々のケースでは、生成モデルを訓練しているわけではないため、出力品質に影響を与えるようには見えず、この拡張を適用することで評価指標の改善が確認された。
スペイン語を、以前はPangram Textでサポートされていた高リソース言語の特徴的な例として取り上げ、現在は大幅に改善されていることを示す。様々な領域において偽陽性率を測定する。
| データセット | 偽陽性率(以前) | 偽陽性率(後) | 例の数 |
|---|---|---|---|
| スペイン語版Amazonレビュー | 0.09% | 0% | 20,000 |
| ウィキリンガ(WikiHowの記事テキスト) | 3.17% | 0.14% | 113,000 |
| XL-SUM(スペイン語ニュース記事) | 0.08% | 0% | 3,800 |
| スペイン語版ウィキペディア | 0.29% | 0.04% | 67,000 |
| スペイン文化X | 0.22% | 0.01% | 1,800,000 |
| 手作業で厳選したスペイン語ブログ記事 | 0% | 0% | 60 |
また、様々な大規模言語モデル(LLM)について、偽陰性率(AI生成テキストが誤って人間によるものと分類される割合)を測定しました。この実験では、LLMが様々な長さやスタイルのエッセイ、ブログ記事、ニュース記事を生成するためのプロンプトリストを作成し、それらをスペイン語に翻訳しました。LLM自体は多言語対応であるため、スペイン語の指示にも応答します。
| モデル | 偽陰性率(以前) | 偽陰性率(後) | 例の数 |
|---|---|---|---|
| GPT-4o | 2.1% | 0% | 1,400 |
| クロード3.5 ソネット | 0.7% | 0% | 1,400 |
| クロード3番作品 | 1.05% | 0% | 1,400 |
| ジェミニ 1.5 プロ | 2.85% | 0% | 1,400 |
ご覧の通り、更新したモデルはテスト対象の全LLMにおいて完全な検出を達成し、以前のバージョンから大幅な改善を実現しています。
私たちが最も重点的に改善に取り組んだ言語のうち2つは、世界で広く話されているものの、実際にはインターネット上ではあまり一般的ではない言語です——アラビア語と日本語です。
| データセット | アラビア語の偽陽性率 | 日本の偽陽性率 | アラビア語の例 | 日本語の例 |
|---|---|---|---|---|
| Amazonレビュー | 0% | 0% | 該当なし | 20,000 |
| AR-AES(アラビア語学生作文) | 0% | 該当なし | 2,000 | 該当なし |
| ウィキリンガ(WikiHowの記事テキスト) | 0.58% | 0.55% | 29,000 | 12,000 |
| XL-SUM(現地語ニュース記事) | 0% | 0% | 4,000 | 733 |
| ウィキペディア | 0.09% | 0.009% | 31,000 | 96,000 |
| カルチュラエックス | 0.08% | 0.21% | 1,785,000 | 1,409,000 |
| 手作業で厳選したブログ記事 | 0% | 0% | 60 | 60 |
従来はこれら2言語に対応していなかったため、偽陰性率が極めて高くなっていました。現在ではAI生成のアラビア語と日本語を非常に高い精度で確実に予測できるようになりました。
| モデル | アラビア語 FNR | 日本FNR |
|---|---|---|
| GPT-4o | 0% | 0% |
| クロード3.5 ソネット | 0% | 0% |
| クロード3番作品 | 0% | 0% |
| ジェミニ 1.5 プロ | 0% | 0.21% |
ご覧の通り、更新したモデルはアラビア語と日本語の両方において、テスト対象の全LLMでほぼ完璧な検出を実現しています。日本語におけるGemini 1.5 Proの偽陰性率はわずか0.21%に留まっています。
言語ベンチマークの完全な結果は、ご要望に応じてご提供いたします。
ネイティブのウェブテキストでは高い性能を発揮する一方、当モデルは「翻訳臭」——不自然な翻訳や不自然な表現——の検出に時折苦戦します。さらに問題なのは、ChatGPTのようなLLMを直接翻訳タスクに利用するユーザーが増えている点です。LLM翻訳テキストを「人間」か「AI」と分類すべきか?それは翻訳の不自然さの度合いと、下流の応用シナリオによって異なります。 スペイン語教師は課題への機械翻訳使用を不正行為と見なすかもしれないが、出版社は翻訳作品を品質保証プロセスで通過させたいと考えるかもしれない。Pangramは翻訳テキストを人間とAIの中間にある「第三のモダリティ」として理解し、ユーザーにより多くの情報を提供することで、モデルの downstream 利用者自身が適切な判断を下せるよう積極的に取り組んでいる。
ご質問がございましたら、info@pangram.com までお問い合わせください!