Proofigとの新たな提携を発表!詳細はこちら

Yelpレビューの徹底分析

ブラッドリー・エミ
2023年11月10日

注記: 社名をPangram Labsに変更しました!詳細はブログ記事をご覧ください。

Checkfor.aiでは、低品質なAI生成コンテンツによるインターネット汚染から守るという使命を推進するため、業界最高峰のAIテキスト検出ツールを目指しています。特に重要な防衛領域の一つがユーザーレビュープラットフォームです。

偽のオンラインレビューは結局のところ、企業と消費者の双方に損害を与えるものであり、ChatGPTはレビュー詐欺を大規模に実行することをさらに容易にしたに過ぎない。

Yelp上のChatGPT生成レビュー

オンラインレビューにおけるユーザーの信頼を維持することは、Checkfor.aiが掲げるミッションの重要な部分であり、オンライン上で人間が生成したコンテンツの真正性を守ることに貢献しています。

私について

私はブラッドリー・エミと申します。Checkfor.ai の CTO を務めています。スタンフォード大学で AI 研究者として働き、テスラオートパイロットチームでは ML サイエンティストとして生産モデルを出荷し、Absci では大規模なニューラルネットワークを用いて医薬品を設計するプラットフォームを構築する研究チームを率いていました。 自動運転車や創薬において、99% の精度はまったく不十分です。99% の精度では、100 人の歩行者のうち 1 人が自動運転車に轢かれる、あるいは 100 人の患者のうち 1 人が、設計不良の薬による生命を脅かす副作用に苦しむ、ということを意味しかねません。

AI生成テキストの検出は必ずしも生死に関わる問題ではありませんが、Checkfor.aiではモデルやソフトウェアシステムを設計するにあたり、同等の品質基準を満たすことを目指しています。当社の検出器は、言い換えや高度なプロンプトエンジニアリングといった敵対的攻撃、およびundetectable.aiのような検出回避ツールに対しても耐えうるものでなければなりません。 この問題の解決(例:単なる99%達成ではない)に真剣に取り組んでいるため、エンジニアリングチームの最優先事項の一つは、極めて堅牢な評価プラットフォームの開発です。

評価の考え方:テストセットは単体テストである

ソフトウェア1.0のサイバーセキュリティ企業は、ユニットテストなしに製品を出荷することなど決してない。ソフトウェア2.0企業として、我々にはユニットテストに相当する手法が必要だ。ただし、それは数百万、あるいは数十億ものパラメータを持つ大規模モデルをテストし、確率的に振る舞う可能性があり、かつ広範なテールケースを網羅しながら正しく動作することを保証しなければならない。 「テストセット精度99%」を達成しただけでは不十分だ。現実世界で遭遇する種類の事例を特に対象とした評価が必要である。

優れたテストセットは特定の質問に答え、交絡変数の数を最小限に抑える。

対象を絞ったテスト問題と対応するテストセットの例には以下が含まれる:

  • 当社のモデルはYelpレビューに対してどの程度有効か?テストセットとして、実際のYelpレビュー1000件とAI生成のYelpレビュー1000件を使用。
  • 私たちのモデルは言い換えられたテキストに対してどの程度効果を発揮するのか?数百の実際の学生のエッセイ、数百のAI生成エッセイ、そしてそれらをQuillBotやUndetectable.AIで言い換えた全く同じエッセイからなるテストセットを用いて検証する。

テストセット内のすべてを単純に組み合わせ、数値を報告できない理由はいくつかあります。

  • 交絡変数が多すぎるため、テストが合格したか不合格だったかがデータ分布によるものかモデルによるものか判断できない。
  • 誰でもテストセットを簡単な例で埋め尽くすだけで、精度数値を人為的に水増しできる。
  • テストセットがどのように公平に作成されたかについて、公開され再現可能な説明がなければ、誰かが単にモデルが成功しベースラインが失敗する例を都合よく選んだだけなのかどうかを判断することはできません。

だからこそ、こうしたベンチマーク研究は完全に的外れだ。焦点が定まらず、モデルに実行させたい特定の行動をテストしていない。偏ったテストセットは、モデルが最高の状態を示す場面では見栄えが良く見えるが、現実世界の事例に直面した時には通用しない。

偏りのないYelpベンチマーク

AIテキスト検出の実際の応用例として、YelpにおけるAI生成レビューの検知が挙げられる。Yelpはレビュープラットフォームの厳格な管理に注力しており、2022年の信頼性と安全性に関する報告書を参照すれば、同社が不正・報酬付き・インセンティブ付き、あるいはその他の不誠実なレビューとの闘いを深く重視していることが明らかである。

幸いなことに、Yelpも優れたオープンソースデータセットを公開している。我々はこのデータセットから1000件のレビューを無作為にサンプリングするとともに、最も一般的に使用されるLLMであるChatGPTから1000件の合成レビューを生成した。

重要な点として、ChatGPTのレビューはKaggleデータセット内の実際のYelp事業者を対象としている。これにより、モデルが事業分布の違いといった詳細に過学習することで不正を行うことを防げる。評価時には、モデルが本物と偽物を区別するためにテキスト内の正しい特徴量を実際に学習したかどうかを検証する。

このデータセットを用いて、AI検出モデルのうち、ChatGPTが生成したレビューと実際のレビューを本当に区別できるモデルを特定します!

モデルの精度

最も単純な指標は精度です:各モデルが正しく分類した例はいくつですか?

  • Checkfor.ai: 99.85% (1997/2000)
  • Originality.AI: 96.2% (1738/1806) (注: Originality.AIは50語未満の文書を分類しません)
  • GPTZero: 90.8% (1815/2000)

99.85%と96%の差は一見大きく見えないかもしれないが、誤り率を考慮すれば、これらの数値をより適切な文脈で捉えることができる。

Checkfor.aiは666回のクエリごとに1回しか失敗しないと予想される一方、Originality.AIは26回のクエリごとに1回、GPTZeroは11回のクエリごとに1回失敗すると予想される。これは当社の誤検出率がOriginality.AIより25倍以上、GPTZeroより60倍以上優れていることを意味する。

偽陽性と偽陰性

偽陽性(false positive)と偽陰性(false negative)を調べるために(機械学習の用語では、これらは精度(precision)と再現率(recall)という非常に類似した統計量に相当します)、混同行列(confusion matrix)を確認できます。つまり、真陽性(true positive)、偽陽性(false positive)、真陰性(true negative)、偽陰性(false negative)の相対的な発生率はどうなっているのでしょうか?

Over all 2,000 examples, Checkfor.ai produces 0 false positives and 3 false negatives, exhibiting high precision and high recall. While admirably, GPTZero does not often predict false positives, with only 2 false positives, it comes at the expense of predicting 183 false negatives– an incredibly high false negative rate! We’d call this a model that exhibits high precision but low recall. Finally, Originality.AI predicts 60 false positives and 8 false negatives– and it refuses to predict a likelihood on short reviews (<50 words) — which are the hardest cases and most likely to be false positives. This high false positive rate means that this model is low precision, high recall.

AIテキスト検出においては、低い偽陽性率(実際の人間がChatGPTから盗用したと誤って非難される事態を避けたい)がより重要である一方、低い偽陰性率も必要不可欠である——AI生成コンテンツの10~20%以上が検出漏れとなる事態は許容できない。

モデルの信頼度

最終的に、テキストが明らかに人間によるものか、ChatGPTによって書かれたものである場合、モデルが高い確信度を示すようにしたいと考えています。

ミッチェルらによる優れた学術論文「DetectGPT」と同様の視覚化戦略に従い、3つのモデルすべてについて、AI生成レビューと実際のレビューの両方に対するモデル予測のヒストグラムをプロットしました。3つのモデルはすべて90%以上の精度であるため、各モデルの信頼度の特性を視覚化するには、Y軸を対数スケールで表示するのが最も有効です。

このプロットでは、x軸はモデルが入力レビューをAI生成と予測する確率を表しています。y軸は、モデルがその特定の確率を実際のテキスト(青色の棒)またはAI生成テキスト(赤色の棒)に対して予測する頻度を表しています。 これらの「ソフト」予測(単純な「はい」または「いいえ」ではなく)を見ると、Checkfor.aiはGPTZeroやOriginality.AIよりもはるかに明確な判定境界線を引け、より確信を持った予測を行うことがわかります。

GPTZeroは確率0.4~0.6の範囲で予測例が多くなりすぎ、モードが0.5付近に集中する傾向がある。一方、Originality.AIの誤検知問題は、ソフト予測を検証するとさらに顕著になる。 実際のレビューの多くは、0.5の閾値をクリアしていなくても、AI生成と判定されかねないほど近い値を示します。これにより、ユーザーはモデルがAI生成テキストを確実に予測できると信頼しにくくなります。なぜなら、レビューにわずかな変更を加えるだけで、攻撃者が検出閾値を下回るまで反復的に編集することで検出器を回避できる可能性があるからです。

一方、我々のモデルは通常非常に決定的です。我々は一般的に確信を持って決定を下すことができます。深層学習や情報理論の背景を持つ読者向けに説明すると、真の分布と予測分布の間の交差エントロピー/KLダイバージェンスが最小となります。

実際のテキストを高い確信度で本物と予測することには明らかな価値がある(Twitterのこのユーモラスな図を参照)。この教育者がAIの確率をAIが書いたテキストの量と誤解したのは明らかだが、検出器が実際のテキストが本物であることに確信を持てない場合、誤解の余地が生じる。

https://twitter.com/rustykitty_/status/1709316764868153537

Checkfor.aiが予測した3つのエラーのうち、残念ながら2つはかなり確信度が高いものです。当社の検出器は完璧ではなく、このような確信度の高い誤予測を回避するため、モデルの調整に積極的に取り組んでいます。

結論

本評価で使用した、本物のYelpレビューと偽レビューの両方のデータセットをオープンソース化します。これにより、将来のモデルが検出器の精度をテストするための重要なベンチマークとして活用できるようになります。

主な要点は以下の通りです:

Checkfor.aiは偽陽性率と偽陰性率の両方が低いという特徴を示しています。 Checkfor.aiは、本物とAI生成のレビューを区別する際に、高い精度だけでなく高い信頼度も実現しています。 今後もこのスタイルのブログ記事をさらに公開し、モデルに関する知見を深めるにつれ、率直な評価を広く共有していきます。今後の展開にご期待ください。皆様のご意見もお聞かせください!

ニュースレターを購読する
AI検出研究に関する月次更新情報を共有しています。