Proofigとの新たな提携を発表!詳細はこちら

パングラムテキストAI検出ツールがマルチリンガルに対応しました!

ブラッドリー・エミ
2024年7月1日

写真:ヴァレンティン・アントヌッチ

当社の主力AI検出モデル「Pangram Text」の大型アップデートを発表できることを嬉しく思います。Pangram Textは、英語で書かれたテキストと同等の業界最高水準の精度で、スペイン語、フランス語、イタリア語、ポルトガル語、ドイツ語、ロシア語、中国語(北京語)で生成されたAIテキストを検出できるようになりました。オンラインプラットフォームをAIスパムから保護するため、この新しい多言語モデルを直ちに展開します。

ベンチマーキング

非英語言語におけるモデルの精度を検証するため、異なる分野から3つの大規模で多様な多言語コーパスを使用します:Amazonの多言語レビュー、Wikipedia、およびXLSum(BBC News International)です。

ベンチマークの人間側では、健全性チェックフィルターを通過した文書をランダムにサンプリングします。AI側ではGPT-3.5、GPT-4、GPT-4oを組み合わせて使用します。まずLLMに実際の文書を要約させます(例:「このレビューの内容は?」)。次に、その要約をもとにレビュー・記事・ニュース記事を生成させます。 この方法でベンチマークを生成することで、ラベルノイズの可能性を排除すると同時に、人間とAIのデータ分布を可能な限り互いに類似させることが保証されます。

言語Amazonレビューの正確性ウィキペディアの正確性XLSum(BBCニュース)の正確性
スペイン語99.59%99.75%99.75%
フランス語98.84%99.33%98.50%
イタリア語該当なし99.82%該当なし
ドイツ語99.44%99.95%該当なし
ポルトガル語該当なし99.83%99.70%
ロシア語該当なし98.34%99.35%
中国語99.70%99.54%98.10%

よくある質問

  • これらの言語に対応するために、モデルをどのように更新しましたか?

当社のモデルは現代の大規模言語モデルと同様のアーキテクチャに基づいているため、AI検出ヘッドの微調整前に大規模な多言語コーパスでバックボーンを学習させるため、大規模な事前学習を採用しています。また、ロシア語や中国語を含む多言語に対応したトークナイザーも使用しています。

  • なぜこれらの特定の言語を選んだのですか?

私たちは、インターネット上で使用されている言語の大半を代表する言語を選択しました。

  • サポートされていない言語でテキストを送信するとどうなりますか?

入力テキストの言語を検出するためにAmazon Comprehendを使用します。言語がサポートされていない場合、予測結果として「Unsupported Language」を返します。

  • モデルは時間の経過とともに改善されるでしょうか?

はい、アクティブラーニングによる多言語データセットの拡充を継続する中で、非英語言語におけるパフォーマンス向上が図られた今後のアップデートをリリースする予定です。

  • 他の言語についてはどうですか?

今後、より多くの言語に対応する予定です。対応してほしい言語がございましたら、お知らせください!

多言語AI検出に関する詳細情報は、info@pangram.comまでお問い合わせください。

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。