Proofigとの新たな提携を発表!詳細はこちら

パングラムがAI生成コンテンツを検出する方法

技術報告書PDFを表示する

概要

パングラムテキストは、AI生成コンテンツをほぼゼロの誤検知率で検出するよう設計されています。当社の厳格なトレーニング手法により誤りを最小限に抑え、文章内の微妙な手がかりを分析・理解することでAIテキストを検出します。

初期訓練プロセス

当社の分類器は従来の言語モデルアーキテクチャを採用しています。入力テキストを受け取りトークン化します。その後、モデルは各トークンを埋め込みに変換します。埋め込みとは、各トークンの意味を表す数値のベクトルです。

入力はニューラルネットワークを通過し、出力埋め込みを生成する。分類器ヘッドは出力埋め込みを0または1の予測値に変換し、0は人間のラベル、1はAIのラベルを示す。

私たちは、公開およびライセンス供与された人間が書いたテキストからなる、小規模ながら多様な約100万文書のデータセットを用いて初期モデルを訓練します。このデータセットには、GPT-4やその他の最先端言語モデルによって生成されたAI生成テキストも含まれています。訓練の結果、テキストが人間によって書かれたものかAIによって書かれたものかを確実に予測できるニューラルネットワークが得られます。

反復による継続的な改善

ハードネガティブマイニング

初期モデルは既に非常に効果的でしたが、精度を最大化し、誤検知(人間が作成した文書をAI生成と誤って予測すること)の可能性を低減したいと考えました。このため、AI検出モデル専用のアルゴリズムを開発しました。

初期データセットでは、モデルは99%の精度から99.999%の精度へ向上させるのに十分な信号を得られませんでした。モデルはデータの初期パターンを迅速に学習しますが、人間とAIのテキストを正確に区別するためには、困難なエッジケースを学習する必要があります。

この問題を解決するため、モデルを用いて大規模データセットから偽陽性を探索し、再学習前にこれらの追加の困難な例を用いて初期トレーニングセットを拡張する。このプロセスを数回繰り返した後、得られたモデルはほぼゼロに近い偽陽性率を示し、さらに保持評価セット全体での性能も向上する。

HUMANAIミラープロンプト
ミラープロンプト
データセットのAI生成部分を、スタイル、トーン、意味内容において人間が作成した部分と極力類似させるよう設計する。各人間作成例に対し、可能な限り多くの軸で元の文書と一致するAI生成例を生成し、モデルがLLMの文章特性のみに基づいて文書を分類することを確実に学習させる。
再訓練
更新された学習データセットでモデルを訓練し、各ステップでモデルの性能を評価します。この手法を用いることで、通常の訓練では達成不可能なレベルまで誤差を低減し、モデルの精度を向上させることが可能です。
モデル再訓練図

詳細はこちら

arXiv.org
パングラムAI生成テキスト分類器に関する技術報告書
arXivに掲載中の当社の完全な技術ホワイトペーパーをご覧ください。トレーニングの詳細、性能、その他の実験について深く掘り下げています!