ニュース

AIによる文章作成が下手な理由を裏付ける情報理論

ジョー・ステック

2026年5月19日

目次

確率分布としての音声
RLHFトラップと「アノテーター合意方言」
カモフラージュの錯覚（スタイルの指定を促すアプローチが失敗する理由）
「温度と仲間たち」の失敗
だから何？

【開示事項】編集過程において、技術的な説明文の草案作成や、構成・文章の改善案の提案にAI言語モデルを使用しました。記事の最終版には、AIからの提案のいくつかが反映されています。

私は、恥ずかしいほど大量の小説、特にSF小説を読んできました。また、ソフトウェアエンジニアとしての仕事では、リリースされる主要なAIモデルをすべて活用しています。

この2つの経験を通じて、私は、AIの「語り口」が、優れた能力を持つ人間の作家と比べると、驚くほど画一的であるという、拭いきれない違和感を覚えた。

文学を愛する人なら、誰もが私の言いたいことがわかるはずです。私はこれまでに約5000人の作家の作品を読んできましたが、正直なところ、たとえ6人ほどの作家しか読んでいなくても、それぞれの作家が独自の文体の領域を確立していることに気づくはずです。

人間の作家が持つ個性的な文章と比べると、AIが生成する文章は驚くほど画一的に聞こえます。これにはそれなりの理由があり、それは情報理論と関係していることがわかりました。

確率分布としての音声

作家独自の「声」は、偶然のものでもなければ、平均的なものでもありません。それは特定の確率分布――ここではP_authorと呼びましょう――なのです。作家が執筆する際、彼らは極めて個性的なプロセスからサンプルを抽出しています。概念の表現方法、文章のテンポ、語彙、その他の文体的な手法について、彼らにはそれぞれ固有の条件付き確率が存在するのです。

ある作家の声を特徴づけるのは、その作家が一貫して選択している、低周波でインパクトの強い要素（分布の「ロングテール」部分）です。私が「テッド・チャン」と言ったら、皆さんはすぐに、彼の文章がいかに構文的には簡潔でありながら、意味的には密度が高いかを思い浮かべるでしょう（私はそのスタイルを賞賛していますが、この括弧書きが示すように、私には真似できません）。私が「ウルスラ・K・ル・グウィン」と言ったら、あなたは彼女がどれほど明快で地に足がついているか、それにもかかわらず詩的な雰囲気を醸し出しているかを思い浮かべるだろう――私は彼女のスタイルをうまく説明できないが、ル・グウィンの読者なら私の言いたいことがわかるはずだ。

結局のところ、私が言いたいのは、あるテキストがどれほど「AIらしい」かを見極める正しい方法は、それが全体的に予測可能かどうかを確認することではない――優れた文章の多くは多少なりとも予測可能だからだ――というのではなく、モデルの出力分布と特定の著者の分布との間のKLダイバージェンスを測定すること、すなわち D_KL(P_author || Q_model) を測定することである。 KLダイバージェンスに馴染みのない方のために説明すると、これはモデルの分布が著者の選択をどの程度カバーできていないかを測るものです（具体的には、Qに最適化された符号を用いてPからのサンプルを符号化する際の、期待される余分な情報コストを測定しています）。このダイバージェンスが大きく、かつ構造化されているとき、そこに「声」が聞こえてくるのです。

RLHFトラップと「アノテーター合意方言」

事前学習の過程で、大規模言語モデルは人間のテキストの一般化された分布のマップを生成します。この基本分布 Q_base は極めて広範囲に及びます。その潜在空間には、ほぼあらゆる P_author を近似する能力が含まれています。

私が指摘する落とし穴は、アラインメントの問題に端を発しています。モデルを安全かつ有用なものにするため、各研究機関では「人間からのフィードバックを用いた強化学習（RLHF）」などの手法を採用しています。具体的な手法は様々ですが、要するに、人間（あるいはAI）の好みに基づいて導き出された報酬信号に対して高いスコアを獲得するような出力を生成できるよう、モデルが最適化されているのです。

これは、モデルを英語の統計的平均へと導くものではありません。むしろ、異なる確率分布を持つ何かに向かわせるのです。これを「アノテーター・コンセンサス方言」と呼ぶことにしましょう。

その仕組みはこうだ。審査員（成果物を評価するために雇われたギグワーカーや専門家など）が成果物を評価する際、個性的な文章は評価に大きなばらつきをもたらす。私の文章スタイルは、ある評価者からは5点満点中5点、別の評価者からは2点と評価されるかもしれない。しかし、無味乾燥で対称的、かつ慎重すぎる回答は、誰からでも4点と評価されるだろう。最適化アルゴリズムによれば、期待報酬を最大化する最も安全な方法は、このばらつきを縮小することである。これは、会話において言えば、ホテルのロビーの装飾のようなものだ。

「ジョー、それは公平な評価じゃないよ！新しいアラインメント技術は、多様性を維持するように明確に設計されているんだから！」と言う人もいるかもしれません。確かにその通りですが、新しい手法であっても、依然として「望ましい」出力という概念に基づいて最適化されており、安全で広く受け入れられる文章に比べて、変動の大きいリスクを伴う表現は依然として不利に扱われてしまいます。

これは検証可能な主張です（私はまだ検証していませんが、検証は可能です）。例えば、アラインメントされたモデルの出力と、企業コミュニケーションと文学小説のコーパスとの間のKLダイバージェンスを測定した場合、モデルの分布は企業コミュニケーションの中心にずっと近い位置にあると予測します。私の知る限り、この正確な測定結果を公表した人はいませんが、最適化の数学的理論からは、そのように予測されるのです。

カモフラージュの錯覚（スタイルの指定を促すアプローチが失敗する理由）

皆さんが何を考えているかは分かっています。「そうは言っても、モデルにこの文体から外れるよう指示すればいいじゃないか」と。例えば「1920年代のハードボイルド探偵小説のスタイルで書いて」とか（正直なところ、この記事をルペ・フィアスコの歌詞風に書き直させたらどうなるか、ちょっと見てみたい気持ちもあります）。確かにそうすれば、アノテーター・コンセンサス・ダイアレクトとは異なるテキストが生成されますが、それでもどこか不自然に画一的な感じが拭えません。

これは、分布の平均をずらすことと、その分散構造を再現することの間には、数学的な違いがあるからです。

モデルに作家の書き方を模倣するよう指示すると、その重心が移動します。モデルは対象の語彙、文構造、その他の文体の特徴について統計的な平均値を算出し、その位置へと移動します。しかし、この新しい位置に対しても、これまで議論してきた「分散を圧縮した」仕組みが適用されるのです。

人間の文章スタイルは、構造化された不規則性に支えられています。著者は基本的なリズムを持っていますが、感情的な効果を狙って、文を途切れさせたり、普段使わない動詞を挿入したり、文を複雑に絡ませたりすることで、意図的にそのリズムを崩します。計算機による文体分析には、これを測定するツールがあります。文の長さの時系列データに対するハースト指数を用いることで、AIが生成したテキストには見られない、人間の文章特有の長期的な依存関係が明らかになります。また、人間の著者は、モデルとは異なる方法で語彙の多様性を調整しています。

要するに、特定のスタイルで文章を書くよう依頼した場合、モデルはそのスタイルの特徴を捉えつつも、その不規則性をすべて滑らかにしてしまうということです。つまり、依頼した内容の「誇張されたパロディ」のようなものが生成されてしまうのです。

「温度と仲間たち」の失敗

AIの分布が狭すぎるなら、それを広げればいいだけではないのでしょうか？

最も一般的な手法は温度スケーリングである。温度 T を高めると、確率を計算する前にモデルの生ロジット値を T で割ることになる。これにより分布全体が平坦化され、モデルは発生頻度の低い単語を選択するよう強制される。しかし、この処理は盲目的なものである。人間の著者の独創性は、文脈に強く依存する。人間は極めて具体的かつ一貫した方法でルールを破るが、温度スケーリングは単に確率的なノイズを導入するに過ぎない。

これは直感的に理解できることだと思いますが、結局のところ、温度を上げると、「不自然に滑らか」な状態から「不自然にランダム」な状態へと移行するだけで、人間的な要素は一切介在しないのです。

より洗練されたデコード戦略が存在することは承知しています。Top-p（核）サンプリング、Top-kフィルタリング、反復ペナルティ、分類器を使用しないガイダンスなどは、いずれもより的を絞った再配分を試みるものです。これらは多少の効果はありますが、いずれも根本的な問題を解決してはいません。つまり、これらは推論時の介入に過ぎず、そのモデル全体の運用哲学（そう呼べるものなら）がアラインメントの段階で形成されてしまっているのです。

ここには、最近友人が指摘してくれた重要なニュアンスもあります。それは、アラインメントを行っても、ベースモデルが本来持つ文体的な多様性の潜在能力が失われるわけではないということです。十分な数の重みが確保されていれば、事前学習された重みには依然としてQ_baseの豊かさの大部分がエンコードされているのです。 Representation Engineeringのような、推論時のステアリング技術が登場しており、これらは基盤となる潜在空間にアクセスすることで、抑制された多様性を部分的に回復させることができます。ただし、これらはまだ研究段階の分野であり、一般向けのAI製品では利用できないものです。

同様に、長文コンテキストを用いたインコンテキスト学習も、若干優れた結果をもたらす可能性がありますが、コンテキストが十分に大きくなるとアテンションメカニズムの効果が弱まり（コンテキストが大きくなるにつれて、再び一様分布に近づいていくようになります）。

だから何？

ここで重要な点は、RLHFに関連する技術における設計上の選択が、誰もが認めたくないほど長い期間、こうしたAIの「声」を検知可能にしてしまうことになるだろうということだ。

また、作家の文体を特定の多次元確率分布として捉えるのも有益です。次回、お気に入りの作家の作品を読む際には、ぜひご自身でKLダイバージェンスを特定してみることをお勧めします。作家の「声」は一体どこから生まれるのでしょうか？これはテキストをより楽しむきっかけになる楽しい練習であり、LLM（大規模言語モデル）の普及によってスキルが退化しがちな昨今、新しい知識を実践し、体得するという困難なプロセスは、取り組む価値のあるものです。

ジョー・ステック

ジョー・ステックゲストライター

ジョー・ステックは、年刊アンソロジーシリーズ『Think Weirder: The Year's Best Science Fiction Ideas』の編集者です。また、Arm社では開発者およびプラットフォーム支援部門のプリンシパル・ソリューション・アーキテクトを務めています。本記事に記載された見解は、あくまで彼個人のものです。

ジョー・ステッチのその他の記事

関連記事

「パングラム・スペース：インタラクティブな研究プロジェクト」

「パングラム・スペース：インタラクティブな研究プロジェクト」

Pangram 3.3.2の内部活性化関数を探索できるインタラクティブな埋め込み探索ツール「Pangram Space」をご紹介します。

イリヤス・マスルール2026年6月18日

マーケターたちは、AI生成コンテンツに広告費を無駄遣いしている

マーケターたちは、AI生成コンテンツに広告費を無駄遣いしている

LLMの高度化に伴い、詐欺師やスパマーは、生成AIを利用して偽のコンテンツをウェブ上に大量に拡散させ、広告収入を横取りしようとする機会があることに気づくでしょう。

アシャン・マーラ2024年6月24日

「Open Pangram」のご紹介

「Open Pangram」のご紹介

ICLR 2026の論文で発表したEditLens技術に基づくPangramの、オープンウェイトおよびソースコード公開版のリリースを発表します。

キャサリン・タイ2026年3月24日

PangramはProofig AIと提携し、PubShieldにAIによる文章検出機能を提供します

PangramはProofig AIと提携し、PubShieldにAIによる文章検出機能を提供します

PangramとProofig AIは提携し、研究者、研究機関、および学術誌向けに、より優れた完全性および透明性を確保するためのツールを提供しています。

マックス・スペロ2026年2月19日

TremauとPangram Labsが提携し、AI生成コンテンツ分野に参入

TremauとPangram Labsが提携し、AI生成コンテンツ分野に参入

史上最大規模の選挙の年を目前に控え、テクノロジーと民主主義の交差点が再び脚光を浴びている。

マックス・スペロとトレマウ2024年4月17日

AI検出研究の最新動向

AI検出研究の最新動向

AI検出の分野で発表されている研究において、パングラムが頻繁に取り上げられるようになっている。

エライアス・マスル2025年3月4日

を購読して、最新情報を受け取りましょう

最新のニュースやお得な情報をお見逃しなく。

soc2

SOC2 タイプ2

AssuranceLabによる検証済み

© 2025 Pangram. 全著作権所有。

info@pangram.com

コミュニティに参加しましょう

© 2025 Pangram. 全著作権所有。

AIによる文章作成が下手な理由を解き明かす情報理論 | Pangram Labs