Proofigとの新たな提携を発表!詳細はこちら
ChatGPTは数秒で2000語の駄文を書く
ChatGPTやその他の大規模言語モデル(LLM)は、総称して「AI」と呼ばれるようになり、ますます人気のあるツールとなっている。最も一般的な用途はアシスタントとしてであり、ユーザーは言語モデルと直接チャットできる。しかしLLMは、不要なAIコンテンツや手抜きで生成されたコンテンツを指す「スラップ」を作成するためにますます利用されている。 AIスロープの一例として、検索トラフィックを誘導する目的でChatGPTが完全に作成したブログ記事がインターネット上に投稿されるケースが挙げられる。別の例としては、企業がAIで作成した複数の長文で称賛に満ちたレビューを用いて評価を押し上げようとする行為がある。
パングラム・ラボは、AI生成テキストを分類する高精度機械学習モデルを訓練しました。訓練終了時点で、このモデルは人間が書いたテキストとAI生成テキストの何億もの例を学習しています。本記事では、より少ない例でAIテキストを見分ける直感を養う方法を解説します。
教育関係者、入学相談員、出版社の担当者らと話しましたが、彼らは皆、AI利用の急増により昨年このスキルを習得せざるを得ませんでした。本記事は、彼らから得た情報と、パングラム社内で新入社員の習熟度向上に用いる手法を組み合わせたものです。結局のところ、タスクそのものに精通していなければ、優れた機械学習モデルを訓練することはできないのです。
一般的に、AIは自らトピックを選択することはなく、特定の何かについて書くよう指示されます。それでもなお、AIは自ら選択したサブトピックに対して偏りを見せます。 例えば、ChatGPTに『白鯨』の象徴性についてエッセイを書くよう指示した場合、おそらく最も明白なトピック群を同じように選択するでしょう。しかし、学生なら誰でもChatGPTに、その本における特定の象徴形式について具体的に書くよう指示でき、ChatGPTはそれについて書くことができます。そのため、テキストがAIかどうかを評価する際、私はトピック自体にはあまり重きを置きません。
完全な文書を書くよう求められた場合、AIは通常、デフォルトで特定の構造を採用します。 ブログ記事の作成を依頼すると、導入部、3~4段落、箇条書き、記事内容をまとめる結論から書き始める。同様に、レストランのレビューをAIに書かせると、「先日、____で食事をする機会を得ました」という書き出しで始まり、料理、雰囲気、サービスについて述べ、熱意を込めて「強くお勧めします」と締めくくることが多い。 このデフォルト構造はプロンプトで変更可能(「20段落のブログ記事を書いて」「レビューは短く、店名は伏せて」)ですが、多くのプロンプターはそこまでの労力を惜しみます。AIの文章が他のAI生成文と類似した構造である場合、それは深く掘り下げるべき強い初期指標となります。
ポーカーにおいて「テイル」とは、ブラフをかける際に無意識に漏らす手がかりを指す。例えば緊張した人は眼鏡をいじり、賭けに関する情報を漏らすことがある。同様にPangramでは特定の単語やフレーズを「AIテイル」と呼ぶ——これらはChatGPTや他の言語モデルが不釣り合いに好む言葉や表現であり、気づき始めるとAI生成の非常に強い指標となる。
「Delve」はAIの露呈を示す極端な例である。なぜならChatGPTが通常のアメリカ英語よりもはるかに頻繁にこの表現を使用するからだ。
誰かが私に冷たいメールを送ってきて、斬新なプロジェクトを提案してきた。すると、その文中に「delve(掘り下げる)」という言葉が使われていることに気づいた。
— Paul Graham (@paulg) 2024年4月7日
また「最近、私は」という表現がレストランレビューでよく使われることに気づきました。さらにChatGPTはカバーレター作成を依頼すると必ず「熱心な」という単語を挿入します。たとえ詳細な指示を与えても、LLMは内部の文体傾向に強く左右されるのです。そのため文体は重要な指標であり、私はそれを重視して分析しています。
以下は、AI会話の出発点として使える一般的なフレーズのリストです。(出典:reddit、aiphrasefinder.com)
フレーズは良い基準となるが、AIが生成するテキストには明らかにAIが書いたとわかるものもあり、これらのフレーズを一切使っていない場合もある。このスキルを向上させるには、実際にAIの文章を研究する時間を割く必要がある。
一部の人には不快に感じられるかもしれないし、他の人には刺激的かもしれない。しかしAIを識別したいなら、AIが書いた文章の特徴を知る必要がある。特定の種類の記事を識別できるようになりたいなら、それが役立つだろう。 例えばAIメールの識別を極めたい場合、まずChatGPTに「初対面の紹介メール」「お礼メール」「営業メール」を作成させます。プロンプトを変えながら数回繰り返し、各バージョンの共通点を記録しましょう。次にClaudeやGeminiでも同様のテストを続け、パターンを探ります。
件名:OpenAIとの協業機会の模索について
親愛なる[創業者のお名前]様、
お元気でお過ごしでしょうか。私は[御社名]の[役職名]、[氏名]と申します。当社は[御社の分野や専門性を簡潔に説明]を専門としております。OpenAI様の人工知能における画期的な進歩を拝見しており、倫理的なAI開発への取り組みと、御社のプロジェクトがもたらす変革的な影響力に深く感銘を受けております。
貴組織との協業の可能性について、ご連絡差し上げております。OpenAIのAI技術と、[貴組織の専門分野または技術]における当社の知見を組み合わせることで、当該分野をさらに発展させ、大きな価値を創出する革新的なソリューションが生まれると確信しております。
この件についてさらに議論し、相互の目標達成に向けて協力できる方法を模索する機会をいただければ幸いです。ご都合の良い時に、簡単な電話または面談を設定していただけませんか? 時間帯は柔軟に対応可能ですので、ご都合に合わせて調整いたします。
この機会をご検討いただきありがとうございます。OpenAIにおけるエキサイティングな発展に貢献し、共に働く可能性を楽しみにしております。
温かいご挨拶を
[あなたのフルネーム]
[あなたの位置]
[御社/御組織]
[連絡先情報]
[LinkedInプロフィールまたはウェブサイト](任意)
パングラム・ラボを立ち上げた当初、私たちは「ヒューマン・ベースライン」と呼ぶ手法を数多く実施しました。ルールは単純です。まずテーマを決めます。最初のベースライン対象は入学願書でした。担当者Aが人間が書いた大学入学願書5通を入手します。次に担当者AがChatGPTや他の大規模言語モデル(LLM)を使ってAIが書いた願書5通を作成します。これらを混ぜ合わせ、10通の願書をテストとして担当者Bに提示し、AI作成分を分類してもらいます。 人物Bはテストを受け、その判断理由を述べます。これにより、これらのエッセイがどの程度検出可能かについての基準が確立され、発見手法の開発に役立ちます。
さらに一歩踏み込むと、Bは自身の発見を活用してより高度な人間の基準を設定し、LLMに追加の入力を促したり、不自然な表現を避けるよう指示したりできる。こうしたやり取りは直感をさらに研ぎ澄ますと同時に、どのAIの特性が繰り返し現れるかを学ぶ助けとなる。
人間の基準例として、以下の2つのレビューをご覧ください。1つはYelpからのもの、もう1つはGPT-4からのものです。
| 例1 | 例2 |
|---|---|
| テキストブックカフェは素敵な宝石のような場所です!この居心地の良い空間は、静かな午後を楽しみたい方にぴったりの温かい雰囲気を提供しています。ここのサンドイッチはまさに絶品で、新鮮な食材と独創的な組み合わせが、伝統的な味を求める方にも冒険心のある方にも満足させてくれます。サービスは親切で気配りが行き届き、毎回快適な体験を保証します。軽いランチに立ち寄るのも、良い本と共にゆっくり過ごすのも、テキストブックカフェはくつろぎ、美味しい料理で自分を甘やかすのに最適な場所です。 | メルゲーズの朝食サンドイッチ、フィッシュサンドイッチ、フライドポテトを分け合った。朝食サンドイッチはまずまずだったが、メルゲーズのパティを細かく刻んで卵と一緒にスクランブル状に炒めていれば、より均一に味が広がってさらに美味しかったと思う。一口ごとにソーセージだけという部分もあり、全体に混ぜ込んだ方が風味が増すはずだ。フィッシュサンドはなかなか良く、同種のサンドイッチと比べて非常にボリュームがあった。 パンが多すぎる?でも貧相なサンドイッチよりはましな悩みだ。フライドポテトにはチュニジア風スパイスがかかっていたが、私にはあまり合わなかった。香りは良かったが、少し苦味があり、スパイスが不均一に付着していたため、完全に覆われたポテトもあれば、全くかかっていないポテトもあった。 |
もし明らかでないなら、最初の例はAIで、二つ目は人間です。私はトピック(ブルックリンのTextbook Cafe)と構造(1段落)の両方を指定しましたが、ChatGPTのスタイルが非常に強いため、それでも明らかな違いが出ます。自分で一つ作って友達と共有してみてください!
パングラム・ラボは、AIと人間が書いたコンテンツを最も正確に区別できるよう、数億もの文書から学習した機械学習モデルの訓練に膨大な時間を費やしてきました。ですから、少し自画自賛してもいいでしょう。 当社のダッシュボードではテキストの貼り付けや文書のアップロードが可能です。直感だけでは確信が持てない場合、このツールが分類結果と信頼度スコアを提供します。さらに詳細な分析機能により、分類において最も重要な手がかりとなった単語やフレーズを特定できます。私自身、インターネット上で警戒すべき内容を見つけた際には常にこのツールを活用しています。皆様の業務にもお役に立てれば幸いです。
ご質問やご意見は?ひどいAIの誤訳を見つけたら共有しませんか?Twitter/Xの@max_spero_までご連絡ください。