Nachrichten

Die Informationstheorie hinter der Frage, warum KI-Texte so schlecht sind

19. Mai 2026

Inhaltsverzeichnis

Die Stimme als Wahrscheinlichkeitsverteilung
Die RLHF-Falle und der „Annotator Consensus Dialect“
Die Illusion der Tarnung (warum die Abfrage des Stils fehlschlägt)
Das Scheitern von „Temperature and Friends“
Na und?

Hinweis: Bei der Bearbeitung wurde ein KI-Sprachmodell eingesetzt, um technische Beschreibungen zu entwerfen und Verbesserungsvorschläge hinsichtlich Struktur und Formulierung zu unterbreiten. Mehrere Vorschläge der KI wurden in die endgültige Fassung des Artikels übernommen.

Ich habe eine fast schon peinlich große Menge an Belletristik gelesen, vor allem Science-Fiction. Außerdem nutze ich für meine Arbeit als Softwareentwickler jedes neue Vorzeigemodell im Bereich der künstlichen Intelligenz.

Diese beiden Erfahrungen hinterließen bei mir das nagende Gefühl, dass KI im Vergleich zu einem hochbegabten menschlichen Autor eine erschreckend einheitliche „Stimme“ hat.

Jeder, der Literatur liebt, weiß, wovon ich spreche. Ich habe Geschichten von etwa fünftausend verschiedenen Autoren gelesen, aber ich bin ehrlich der Meinung, dass man selbst dann, wenn man nur ein halbes Dutzend Autoren gelesen hat, feststellen wird, dass jeder Autor seinen ganz eigenen stilistischen Raum einnimmt.

Im Vergleich zu den einzigartigen Stilen menschlicher Autoren klingt das, was KI schreibt, bemerkenswert einheitlich. Es stellt sich heraus, dass es dafür einen guten Grund gibt, und dieser hängt mit der Informationstheorie zusammen.

Die Stimme als Wahrscheinlichkeitsverteilung

Eine einzigartige „Stimme“ eines Autors ist weder zufällig noch durchschnittlich. Es handelt sich um eine spezifische Wahrscheinlichkeitsverteilung – nennen wir sie P_author. Wenn ein Autor schreibt, wählt er aus einem höchst individuellen Prozess aus. Er verfügt über spezifische bedingte Wahrscheinlichkeiten dafür, wie er Konzepte, das Tempo, den Wortschatz und andere stilistische Mittel einsetzt.

Was eine Stimme unverwechselbar macht, sind die konsistenten Entscheidungen eines Autors in Bezug auf tieffrequente, wirkungsvolle Elemente (der lange Schwanz der Verteilung). Wenn ich „Ted Chiang“ sage, denkst du sofort daran, wie syntaktisch schlicht, aber semantisch dicht seine Sätze sind (ein Stil, den ich bewundere, aber wie dieser Einschub zeigt, nicht nachahmen kann). Wenn ich „Ursula K. Le Guin“ sage, denken Sie daran, wie klar und bodenständig sie sein kann und dennoch ein lyrisches Gefühl vermittelt – ich kann ihren Stil nicht wirklich gut beschreiben, aber Leser von Le Guin wissen, was ich meine.

Letztendlich möchte ich damit sagen, dass man nicht dadurch richtig messen kann, wie „KI-ähnlich“ ein Text klingt, dass man prüft, ob er generell vorhersehbar ist – denn die meisten kompetenten Texte sind bis zu einem gewissen Grad vorhersehbar –, sondern indem man die KL-Divergenz zwischen der Ausgabeverteilung des Modells und der Verteilung eines bestimmten Autors misst: D_KL(P_author || Q_model). Für diejenigen, die mit der KL-Divergenz nicht vertraut sind: Diese misst, wie schlecht die Verteilung des Modells die Entscheidungen des Autors abdeckt (genauer gesagt misst sie die erwarteten zusätzlichen Informationskosten für die Kodierung von Stichproben aus P unter Verwendung eines für Q optimierten Codes). Wenn diese Divergenz groß und strukturiert ist, hört man eine Stimme.

Die RLHF-Falle und der „Annotator Consensus Dialect“

Während des Vortrainings erstellt ein großes Sprachmodell eine Karte der verallgemeinerten Verteilung menschlicher Texte. Diese Basisverteilung, Q_base, ist enorm breit. In ihrem latenten Raum birgt sie die Fähigkeit, nahezu jedes P_author zu approximieren.

Die Falle, von der ich spreche, beginnt bereits bei der Ausrichtung. Um das Modell sicher und nützlich zu machen, wenden Forschungslabore Techniken wie „Reinforcement Learning from Human Feedback“ (RLHF) und andere an. Die Einzelheiten variieren, aber unterm Strich wird das Modell so optimiert, dass es Ergebnisse liefert, die bei einem Belohnungssignal, das sich aus menschlichen (oder KI-)Präferenzen ableitet, gut abschneiden.

Dadurch wird das Modell nicht in Richtung des statistischen Durchschnitts des Englischen verschoben. Es wird vielmehr in Richtung einer anderen Wahrscheinlichkeitsverteilung verschoben – nennen wir diese den „Annotator Consensus Dialect“.

Der Mechanismus, der dazu führt, ist folgender: Wenn die Bewerter (Gig-Worker, die zur Bewertung von Beiträgen eingestellt wurden, oder Experten oder wer auch immer) Beiträge bewerten, führt ein eigenwilliger Schreibstil zu einer hohen Streuung bei den Bewertungen. Mein Schreibstil könnte von einem Bewerter 5/5 und von einem anderen 2/5 erhalten. Eine sterile, symmetrische, stark abgeschwächte Antwort könnte hingegen durchweg 4/5 erzielen. Der Optimierungsalgorithmus schreibt vor, dass der sicherste Weg zur Maximierung der erwarteten Belohnung darin besteht, die Streuung zu verringern. Es ist das sprachliche Äquivalent zur Einrichtung einer Hotellobby.

Man könnte sagen: „Joe, das ist keine faire Darstellung! Neuere Ausrichtungstechniken sind ausdrücklich darauf ausgelegt, Vielfalt zu bewahren!“ Das stimmt zwar, doch die neueren Methoden optimieren nach wie vor auf eine Vorstellung von „bevorzugter“ Ausgabe ab, wodurch risikoreiche Texte mit hoher Varianz im Vergleich zu sicherer, allgemein akzeptierter Prosa weiterhin benachteiligt werden.

Dies ist eine überprüfbare Behauptung (ich habe sie zwar nicht überprüft, aber sie ist überprüfbar). Würde man die KL-Divergenz zwischen den Ausgabedaten eines trainierten Modells und einem Korpus messen, das beispielsweise aus Unternehmenskommunikation einerseits und literarischer Belletristik andererseits besteht, gehe ich davon aus, dass die Verteilung des Modells weitaus näher am Zentrum des Unternehmensbereichs liegen würde. Meines Wissens hat noch niemand genau diese Messung veröffentlicht, doch die mathematischen Optimierungsverfahren lassen dies eindeutig vermuten.

Die Illusion der Tarnung (warum die Abfrage des Stils fehlschlägt)

Ich weiß, was du denkst: Ja, aber man kann das Modell dazu bringen, diesen Dialekt zu verlassen. „Schreibe im Stil eines Hardboiled-Detektivs der 1920er Jahre“ oder was auch immer (ein Teil von mir möchte sehen, wie sich dieser Artikel lesen würde, wenn ich ein Modell bitten würde, ihn als Songtext von Lupe Fiasco umzuschreiben). Das führt zwar zu einem Text, der sich vom „Annotator Consensus Dialect“ unterscheidet, aber er wirkt immer noch verdächtig einheitlich.

Das liegt daran, dass es einen mathematischen Unterschied zwischen der Verschiebung des Mittelwerts einer Verteilung und der Nachbildung ihrer Varianzstruktur gibt.

Wenn man ein Modell auffordert, einen Autor nachzuahmen, verlagert es seinen Schwerpunkt. Es berechnet den statistischen Mittelwert des Wortschatzes, der Satzstruktur und anderer stilistischer Merkmale des Vorbilds und verschiebt sich dorthin. Dabei wendet es jedoch dieselbe Mechanik der Varianzkomprimierung an, die wir bereits besprochen haben, nun auf diesen neuen Ort.

Der menschliche Schreibstil beruht auf strukturierter Unregelmäßigkeit. Ein Autor hat zwar einen Grundrhythmus, bricht diesen jedoch bewusst, indem er beispielsweise in ein Fragment stolpert, ein untypisches Verb einstreut oder einen Satz für eine emotionale Wirkung verwickelt. Die computergestützte Stilometrie verfügt über Werkzeuge, um dies zu messen: Hurst-Exponenten in Zeitreihen zur Satzlänge können weitreichende Abhängigkeiten im menschlichen Schreiben aufzeigen, die KI-Texten fehlen. Menschliche Autoren variieren ihre lexikalische Vielfalt auf eine Weise, wie es Modelle nicht tun.

Das heißt also: Wenn man um einen Text in einem bestimmten Stil bittet, greift das Modell zwar die typischen Stilmittel des gewünschten Stils auf, glättet aber alle Unebenheiten. Es erzeugt eine Karikatur dessen, was man eigentlich wollte.

Das Scheitern von „Temperature and Friends“

Wenn die Verteilung der KI zu eng ist, warum können wir sie dann nicht einfach erweitern?

Der gängigste Ansatz ist die Temperaturskalierung. Wenn man die Temperatur T erhöht, dividiert man die Roh-Logits des Modells durch T, bevor die Wahrscheinlichkeiten berechnet werden. Dadurch wird die gesamte Verteilung abgeflacht und das Modell dazu gezwungen, weniger wahrscheinliche Wörter auszuwählen. Dies geschieht jedoch blind. Die Exzentrizität eines menschlichen Autors ist stark kontextabhängig. Menschen brechen Regeln auf sehr spezifische, konsistente Weise, während die Temperaturskalierung lediglich stochastisches Rauschen einführt.

Hoffentlich ist das ziemlich intuitiv einleuchtend – letztendlich führt eine Erhöhung der Temperatur lediglich dazu, dass man von „verdächtig gleichmäßig“ zu „verdächtig zufällig“ übergeht, ohne dabei überhaupt den menschlichen Bereich zu durchlaufen.

Ich weiß, dass es ausgefeiltere Dekodierungsstrategien gibt. Top-p-Sampling (Nucleus), Top-k-Filterung, Wiederholungsstrafen und klassifikatorfreie Steuerung zielen alle auf eine gezieltere Umverteilung ab. Sie helfen zwar am Rande, aber keine von ihnen löst das grundlegende Problem, dass es sich hierbei um Eingriffe zur Laufzeit handelt, die auf ein Modell angewendet werden, dessen gesamte Funktionsweise (wenn man es so nennen kann) bereits während des Alignments festgelegt wurde.

Hier gibt es noch eine wichtige Nuance, auf die mich kürzlich einer meiner Freunde hingewiesen hat: Durch das Alignment geht die latente Fähigkeit des Basismodells zur stilistischen Variation nicht verloren. Die vortrainierten Gewichte kodieren nach wie vor den Großteil der Vielfalt von Q_base, solange man über genügend Gewichte verfügt. Es gibt neue Techniken zur Steuerung während der Inferenzphase wie Representation Engineering, die die unterdrückte Varianz teilweise wiederherstellen können, indem sie auf den zugrunde liegenden latenten Raum zugreifen. Dies sind jedoch Forschungsbereiche und keine Funktionen, die in öffentlichen KI-Produkten verfügbar sind.

Ebenso kann das Lernen mit langem Kontext ebenfalls etwas bessere Ergebnisse liefern, doch lassen die Aufmerksamkeitsmechanismen nach, wenn der Kontext groß genug wird (und man tendiert mit zunehmendem Kontext wieder zur Gleichverteilung).

Na und?

Die wichtigste Erkenntnis dabei ist, dass die Designentscheidungen, die bei RLHF-nahen Techniken getroffen werden, dazu führen werden, dass diese KI-„Stimmen“ noch weitaus länger nachweisbar sein werden, als irgendjemand zugeben möchte.

Außerdem ist es hilfreich, sich den Stil eines Autors als eine bestimmte hochdimensionale Wahrscheinlichkeitsverteilung vorzustellen, und ich möchte Sie dazu auffordern, beim nächsten Lesen Ihres Lieblingsautors selbst zu versuchen, einige der KL-Divergenzen zu identifizieren. Woher kommt die Stimme des Autors? Das ist eine unterhaltsame Übung, die Ihren Lesegenuss steigern könnte, und der schwierige Prozess des Übens und Verinnerlichens neuen Wissens ist in diesen Zeiten der durch LLM verursachten Kompetenzatrophie eine gute Sache.

Joe Stech

Joe StechGastautor

Joe Stech ist Herausgeber der jährlichen Anthologie-Reihe „Think Weirder: The Year’s Best Science Fiction Ideas“. Außerdem ist er bei Arm als Principal Solutions Architect im Bereich Entwickler- und Plattformunterstützung tätig. Die hier geäußerten Ansichten sind seine eigenen.

Mehr von Joe Stech

Weiterführende Literatur

Pangram Space: ein interaktives Forschungsprojekt

Pangram Space: ein interaktives Forschungsprojekt

Wir stellen Ihnen „Pangram Space“ vor, einen interaktiven Embedding-Explorer für die internen Aktivierungen von Pangram 3.3.2.

Elyas Masrour18. Juni 2026

Marketingfachleute verschwenden Werbegelder für KI-generierte Inhalte

Marketingfachleute verschwenden Werbegelder für KI-generierte Inhalte

Je ausgefeilter große Sprachmodelle (LLMs) werden, desto eher werden Betrüger und Spammer die Möglichkeit erkennen, generative KI zu nutzen, um im Internet in großem Umfang gefälschte Inhalte zu verbreiten, mit dem Ziel, Werbeeinnahmen zu erbeuten.

Ashan Marla24. Juni 2024

Wir stellen Open Pangram vor

Wir stellen Open Pangram vor

Wir geben die Veröffentlichung von Versionen von Pangram bekannt, die auf der von uns in unserem ICLR-2026-Beitrag vorgestellten EditLens-Technologie basieren und über offene Gewichtung und frei verfügbaren Quellcode verfügen.

Katherine Thai24. März 2026

Pangram geht eine Partnerschaft mit Proofig AI ein, um KI-gestützte Erkennung von Plagiaten in PubShield zu integrieren

Pangram geht eine Partnerschaft mit Proofig AI ein, um KI-gestützte Erkennung von Plagiaten in PubShield zu integrieren

Pangram und Proofig AI haben sich zusammengeschlossen, um Forschern, Institutionen und Publikationen bessere Instrumente für Integrität und Transparenz zur Verfügung zu stellen.

Max Spero19. Februar 2026

Tremau und Pangram Labs gehen eine Partnerschaft ein, um sich mit KI-generierten Inhalten zu befassen

Tremau und Pangram Labs gehen eine Partnerschaft ein, um sich mit KI-generierten Inhalten zu befassen

Da wir kurz vor dem größten Wahljahr der Geschichte stehen, rückt das Zusammenspiel von Technologie und Demokratie erneut in den Mittelpunkt.

Max Spero und Tremau17. April 2024

Neueste Erkenntnisse aus der Forschung zur KI-Erkennung

Neueste Erkenntnisse aus der Forschung zur KI-Erkennung

Pangram taucht immer wieder in den Forschungsarbeiten auf, die auf dem Gebiet der KI-Erkennung veröffentlicht werden.

Elyas Masrour4. März 2025

Abonnieren Sie unsere Updates unter

Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.

soc2

SOC2 TYP 2

Verifiziert durch AssuranceLab

© 2025 Pangram. Alle Rechte vorbehalten.

info@pangram.com

Treten Sie unserer Community bei

© 2025 Pangram. Alle Rechte vorbehalten.