新着

Twitter、LinkedIn、Substackなどで、投稿が人間によるものかAIによるものかを即座に見分けられます。新しいChrome拡張機能をぜひお試しください。

詳細を見る
ニュース

AIによる文章作成が下手な理由を説明する情報理論

2026年5月19日

【開示事項】編集過程において、技術的な説明文の草案作成や、構成・文章の改善案の提案にAI言語モデルを使用しました。記事の最終版には、AIからの提案のいくつかが反映されています。

私は、恥ずかしいほど大量の小説、特にSF小説を読んできました。また、ソフトウェアエンジニアとしての仕事では、リリースされる主要なAIモデルをすべて活用しています。

この2つの経験を通じて、私は、AIの「語り口」が、優れた能力を持つ人間の作家と比べると、驚くほど画一的であるという、拭いきれない違和感を覚えた。

文学を愛する人なら、誰もが私の言っていることを理解してくれるはずです。私はこれまでに約5000人の作家の作品を読んできましたが、正直なところ、たとえ6人ほどの作家しか読んでいなくても、それぞれの作家が独自の文体の領域を確立していることに気づくはずです。

人間の作家が持つ個性的な文章と比べると、AIが生成する文章は驚くほど画一的に聞こえます。これにはそれなりの理由があり、それは情報理論と関係していることがわかりました。

確率分布としての音声

作家独自の「声」は、偶然のものでもなければ、平均的なものでもない。それは特定の確率分布――ここではそれをP_authorと呼ぶことにしよう――である。作家が執筆する際、彼らは極めて個性的なプロセスからサンプリングを行う。概念の表現方法、ペース配分、語彙、その他の文体的な手法について、彼らには特定の条件付き確率が存在するのだ。

ある作家の声を特徴づけるのは、その作家が一貫して行っている、影響力の大きい低周波の選択(分布の「ロングテール」)です。私が「テッド・チャン」と言ったら、皆さんはすぐに、彼の文章がいかに構文的には簡潔でありながら、意味的には密度が高いかを思い浮かべるでしょう(私はそのスタイルを賞賛していますが、この括弧書きが示すように、私には真似できません)。 私が「ウルスラ・K・ル・グウィン」と言ったら、あなたは彼女がどれほど明快で地に足がついているか、それにもかかわらず詩的な雰囲気を醸し出しているかを思い浮かべるだろう――私は彼女のスタイルをうまく説明できないが、ル・グウィンの読者なら私の言いたいことがわかるはずだ。

結局のところ、私が言いたいのは、あるテキストがどれほど「AIらしい」かを見極める正しい方法は、それが全体的に予測可能かどうかを確認することではない――優れた文章の多くは多少なりとも予測可能だからだ――というのではなく、モデルの出力分布と特定の著者の分布との間のKLダイバージェンスを測定すること、すなわち D_KL(P_author || Q_model) を測定することである。 KLダイバージェンスに馴染みのない方のために説明すると、これはモデルの分布が著者の選択をどの程度カバーできていないかを測るものです(具体的には、Qに最適化された符号を用いてPからのサンプルを符号化する際の、期待される余分な情報コストを測定しています)。このダイバージェンスが大きく、かつ構造化されているとき、そこに「声」が聞こえてくるのです。

RLHFトラップと「アノテーター・コンセンサス方言」

事前学習の過程で、大規模言語モデルは人間のテキストの一般化された分布のマップを生成します。この基本分布 Q_base は極めて広範囲に及びます。その潜在空間には、ほぼあらゆる P_author を近似する能力が含まれています。

私が指摘する落とし穴は、アラインメントの問題に端を発しています。モデルを安全かつ有用なものにするため、各研究機関では「人間からのフィードバックを用いた強化学習(RLHF)」などの手法を採用しています。具体的な手法は様々ですが、要するに、人間(あるいはAI)の好みに基づいて導き出された報酬信号に対して高いスコアを獲得するような出力を生成できるよう、モデルが最適化されているのです。

これは、モデルを英語の統計的平均へと向かわせるものではありません。むしろ、異なる確率分布を持つ何かに向かわせるのです。これを「アノテーター・コンセンサス方言」と呼ぶことにしましょう。

その仕組みはこうだ。審査員(成果物を評価するために雇われたギグワーカーや専門家など)が成果物を評価する際、個性的な文章は評価に大きなばらつきをもたらす。 私の文章スタイルは、ある評価者からは5点満点中5点、別の評価者からは2点と評価されるかもしれない。しかし、無味乾燥で対称的、かつ慎重すぎる回答は、誰からでも4点と評価されるだろう。最適化アルゴリズムによれば、期待報酬を最大化する最も安全な方法は、このばらつきを縮小することである。これは、会話において言えば、ホテルのロビーの装飾のようなものだ。

「ジョー、それは公平な評価じゃないよ!新しいアラインメント技術は、多様性を維持するように明確に設計されているんだから!」と言う人もいるかもしれません。確かにその通りですが、新しい手法もやはり「望ましい」出力という概念に基づいて最適化されており、安全で広く受け入れられる文章に比べて、変動の大きいリスクを伴う表現は依然として不利な扱いを受けています。

これは検証可能な主張です(私はまだ検証していませんが、検証は可能です)。例えば、アラインメントされたモデルの出力と、企業文書と文学小説のコーパスとの間のKLダイバージェンスを測定した場合、モデルの分布は企業文書の中心にずっと近い位置にあると私は予測します。私の知る限り、この正確な測定結果を公表した人はいませんが、最適化の数学的理論からは、そのように予測されるのです。

カモフラージュの錯覚(スタイルの指定が機能しない理由)

皆さんが何を考えているかは分かっています。「そうは言っても、モデルにこの文体から外れるよう指示すればいいじゃないか」と。「1920年代のハードボイルド探偵小説のスタイルで書いて」とかね(正直なところ、この記事をルペ・フィアスコの歌詞風に書き直させたらどうなるか、ちょっと見てみたい気持ちもあります)。確かにそうすれば、アノテーター・コンセンサス・ダイアレクトとは異なるテキストが生成されますが、それでもどこか不自然に画一的な感じがするのです。

これは、分布の平均をずらすことと、その分散構造を再現することの間には、数学的な違いがあるからです。

モデルに特定の著者の書き方を模倣するよう指示すると、その重心が移動します。モデルは対象の語彙、文構造、その他の文体の特徴について統計的な平均値を算出し、その位置へと移動します。しかし、この新しい位置においても、これまで議論してきた「分散の圧縮」という仕組みが適用されるのです。

人間の文章スタイルは、構造化された不規則性に基づいています。著者は基本的なリズムを持っていますが、感情的な効果を狙って、文を途切れさせたり、普段使わない動詞を挿入したり、文を複雑に絡ませたりするなどして、意図的にそのリズムを崩します。計算機による文体分析には、これを測定するツールがあります。文の長さの時系列データに対するハースト指数を用いることで、AIが生成したテキストには見られない、人間の文章特有の長期的な依存関係が明らかになります。人間の著者は、モデルとは異なる方法で語彙の多様性を調整しています。

要するに、特定のスタイルで文章を書くよう依頼した場合、モデルはそのスタイルの特徴を捉えつつも、その不規則性をすべて滑らかにしてしまうということです。つまり、依頼内容とはかけ離れた、誇張されたような文章を生成してしまうのです。

「温度と仲間たち」の失敗

AIの分布が狭すぎるなら、それを広げればいいだけではないのでしょうか?

最も一般的な手法は温度スケーリングである。温度 T を高めると、確率を計算する前にモデルの生ロジット値を T で割ることになり、これにより分布全体が平坦化され、モデルは出現頻度の低い単語を選択するよう強制される。しかし、この処理は盲目的なものである。人間の著者の個性は、文脈に強く依存するものである。人間は極めて具体的かつ一貫した方法でルールを破るが、温度スケーリングは単に確率的なノイズを導入するに過ぎない。

これは直感的に理解できることだと思いますが、結局のところ、温度を上げると、「不自然に滑らか」な状態から「不自然にランダム」な状態へと移行するだけで、人間らしい状態には全く至らないのです。

より洗練されたデコード戦略が存在することは承知しています。Top-p(核)サンプリング、Top-kフィルタリング、反復ペナルティ、分類器を使用しないガイダンスなどは、いずれもより的を絞った再配分を試みるものです。これらは多少の効果はありますが、いずれも根本的な問題を解決してはいません。つまり、これらは推論時の介入に過ぎず、そのモデル全体の動作原理(そう呼べるものなら)はアラインメントの段階で形成されてしまっているのです。

ここには、最近友人が指摘してくれた重要なニュアンスもあります。それは、アラインメントを行っても、ベースモデルが本来持つ文体的な多様性の潜在能力が失われるわけではないということです。十分な数の重みが確保されていれば、事前学習された重みには依然としてQ_baseの豊かさの大部分がエンコードされているのです。 Representation Engineeringのような、推論時のステアリング技術が登場しており、これらは基盤となる潜在空間に働きかけることで、抑制された多様性を部分的に回復させることができます。ただし、これらはまだ研究段階の分野であり、一般向けのAI製品では利用できないものです。

同様に、長文コンテキストを用いたインコンテキスト学習も、若干良い結果をもたらす可能性がありますが、コンテキストが十分に大きくなるとアテンションメカニズムの効果が弱まり(コンテキストが大きくなるにつれて、再び一様分布に近づいていくようになります)。

だから何?

ここで重要な点は、RLHFに関連する技術における設計上の選択が、誰もが認めたくないほど長い期間、こうしたAIの「声」を検知可能にしてしまうことになるだろうということだ。

また、作家の文体を特定の多次元確率分布として捉えるのも有益です。次回、お気に入りの作家の作品を読む際には、ぜひご自身でKLダイバージェンスを特定してみることをお勧めします。作家の「声」は一体どこから生まれるのでしょうか? これはテキストをより楽しむきっかけになる楽しい練習であり、LLM(大規模言語モデル)の普及によってスキルが退化しがちな昨今、新しい知識を実践し、体得するという困難なプロセスは、取り組む価値のあるものです。


ジョー・ステック
ジョー・ステックゲストライター

ジョー・ステックは、年刊アンソロジーシリーズ『Think Weirder: The Year's Best Science Fiction Ideas』の編集者です。また、Arm社では開発者およびプラットフォーム支援部門のプリンシパル・ソリューション・アーキテクトを務めています。本記事に記載された見解は、あくまで彼個人のものです。

ジョー・ステッチのその他の記事

関連記事

学生がAI検出を回避しようとする方法
ニュース

学生がAI検出を回避しようとする方法

2025年10月24日
AI検出が大幅に進化:Checkfor.aiを発表
ニュース

AI検出が大幅に進化:Checkfor.aiを発表

2023年10月12日
AI識別機能を発表:Pangramは異なるLLMを互いに区別できます
製品アップデート

AI識別機能を発表:Pangramは異なるLLMを互いに区別できます

2025年2月11日
トレモーとパングラム・ラボが提携し、AI生成コンテンツへの取り組みを開始
ニュース

トレモーとパングラム・ラボが提携し、AI生成コンテンツへの取り組みを開始

2024年4月17日
マーケターはAI生成コンテンツに広告費を無駄遣いしている
ニュース

マーケターはAI生成コンテンツに広告費を無駄遣いしている

2024年6月24日
なぜパングラムには最小単語数があるのですか?
ニュース

なぜパングラムには最小単語数があるのですか?

2025年5月23日