Proofigとの新たな提携を発表!詳細はこちら
当社の分類器は従来の言語モデルアーキテクチャを採用しています。入力テキストを受け取りトークン化します。その後、モデルは各トークンを埋め込みに変換します。埋め込みとは、各トークンの意味を表す数値のベクトルです。
入力はニューラルネットワークを通過し、出力埋め込みを生成する。分類器ヘッドは出力埋め込みを0または1の予測値に変換し、0は人間のラベル、1はAIのラベルを示す。
初期モデルは既に非常に効果的でしたが、精度を最大化し、誤検知(人間が作成した文書をAI生成と誤って予測すること)の可能性を低減したいと考えました。このため、AI検出モデル専用のアルゴリズムを開発しました。
初期データセットでは、モデルは99%の精度から99.999%の精度へ向上させるのに十分な信号を得られませんでした。モデルはデータの初期パターンを迅速に学習しますが、人間とAIのテキストを正確に区別するためには、困難なエッジケースを学習する必要があります。
この問題を解決するため、モデルを用いて大規模データセットから偽陽性を探索し、再学習前にこれらの追加の困難な例を用いて初期トレーニングセットを拡張する。このプロセスを数回繰り返した後、得られたモデルはほぼゼロに近い偽陽性率を示し、さらに保持評価セット全体での性能も向上する。