私たちは、Claude Mythos Previewのような強力な最先端モデルが登場しても、AI検出技術は今後も有効であり続けると考えています。

人間であれLLMであれ、著者が文章を書く際には、常に判断を下しています。たった150語の文章であっても、著者は語彙の選択、語順、句読点の配置、文の構成について、意識的・無意識的に何十万もの判断を下しているのです。

根本的に、AI検出は「作成者の特定」という問題です。特定のモデルがどれほど高度になったとしても、最終的な判断を下しているのは依然として単一の「作成者」に過ぎません。また、その判断には制約も伴います。アシスタントモデルは、有用で、明確かつ読みやすいテキストを生成する必要があります。こうした特性は、教師あり微調整や強化学習を通じてモデルに組み込まれています。

最も洗練されたフロンティアモデルでさえ、あくまで単一の構造化されたシステムに過ぎず、特定できる傾向や癖を持っています。また、これらのモデルは大量のテキストを出力するため、どのような判断を下しやすいかを学ぶ絶好の機会となります。

人々は時々、この問題を「人間とAIによる文章の統計的な差が縮まっている」かのように捉えることがある。しかし、これは検出技術の働きを誤解した見方です。ニューヨーク・タイムズ紙のクイズが話題になったように、AIはすでに、訓練を受けていない人の目には人間による文章と見分けがつかないほど上手に文章を書くことができます。しかし、モデルによって生成された文章は、個々の著者の作品と同様に、埋め込み空間において常に特定の領域に集約されることになります。だからこそ、モデルがますます高性能になっていっても、AI検出技術は今後も有効であり続けると私たちは考えているのです。

結果は良好です。現在のパングラムモデルは、システムカードで公開された『Mythos Preview』の短編小説を正しく検出することができました。

モデルが学習済みシステムである限り、検出は解決可能な課題であり続けると私たちは考えています。