Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Pangram 3.0: Quantifizierung des Ausmaßes der KI-Bearbeitung in Texten

Katherine Thai
11. Dezember 2025

*Hinweis: Unser neues Modell, Pangram 3.0, basiert auf unserer veröffentlichten Forschungsarbeit: EditLens: Quantifizierung des Ausmaßes der KI-Bearbeitung in Texten.

Die rasche Verbreitung großer Sprachmodelle (LLMs) wie ChatGPT, Claude und Gemini hat die Art und Weise, wie wir Texte schreiben, überarbeiten und mit ihnen interagieren, grundlegend verändert. Eine aktuelle Studie von OpenAI hat ergeben, dass zwei Drittel aller schriftlichen Anfragen an ChatGPT das Modell auffordern, vom Nutzer bereitgestellten Text zu modifizieren, anstatt Text von Grund auf neu zu generieren. Nutzer bitten Modelle zunehmend, Grammatik zu verbessern, Argumente umzustrukturieren oder den Ton zu ändern, ausgehend von einem von Menschen verfassten Entwurf.

Was bedeutet der Anstieg von Texten, die von Menschen verfasst, aber von KI bearbeitet wurden, für KI-Erkennungswerkzeuge? Viele bestehende Werkzeuge sind darauf ausgelegt, Texte in maximal drei Kategorien einzuteilen: vollständig von Menschen verfasst, vollständig von KI erstellt oder gemischt. Dieses Schema unterscheidet nicht zwischen einem Absatz, dessen Grammatik durch ein LLM korrigiert wurde, und einem Absatz, der durch ein Modell um Details erweitert wurde.

Um das gesamte Spektrum der KI-Bearbeitungen in Texten vollständig zu erfassen, führen wir Pangram 3.0 ein, ein Modell, das entwickelt wurde, um den Umfang der KI-Beteiligung an der Erstellung eines Textes zu quantifizieren. Anstatt eine Kategorisierung als vollständig menschlich, vollständig KI-basiert oder gemischt zurückzugeben, gibt Pangram einen Wert aus, der der „Stärke” der KI-Intervention entspricht.

Homogene vs. heterogene gemischte Urheberschaft

Pangram 3.0 befasst sich mit dem Fall von Texten, die wir als homogene gemischte Urheberschaft bezeichnen. Lassen Sie uns den Unterschied zwischen homogener und heterogener gemischter Urheberschaft aufschlüsseln.

Im heterogenen Fall kann die Urheberschaft jedes Textabschnitts direkt einem Menschen oder einer KI zugeordnet werden. Im folgenden Beispiel beginnt ein Mensch mit dem Verfassen einer Rezension und bittet dann ChatGPT, diese zu ergänzen. In solchen Fällen gibt es eine oder mehrere Grenzen zwischen den Abschnitten, die von Menschen und denen, die von KI verfasst wurden. Man könnte jeden Satz oder sogar jedes Wort danach kennzeichnen, wer es produziert hat: Mensch oder KI. Die Erkennung heterogener gemischter Texte (auch als feinkörnige KI-Texterkennung bezeichnet) wurde bereits von Kushnareva et al. (2024), Wang et al. (2023) und Lei et al. (2025) untersucht.

Im homogenen Fall wird die Urheberschaft durch den Bearbeitungsprozess verkompliziert. Um bei unserem Beispiel der Restaurantkritik zu bleiben: Ein homogener gemischter Text würde entstehen, wenn ein Mensch eine kurze Kritik schreibt, aber ChatGPT bittet, diese mit Details zu ergänzen. In diesem Fall ist es unmöglich, die vom Menschen verfassten Wörter von den von der KI verfassten Wörtern zu trennen: Die KI hat den menschlichen Text mit neuen Wörtern umformuliert, aber die Bedeutung und die Ideen hinter dem Text stammen direkt aus dem menschlichen Entwurf (stellen Sie sich einen Fall vor, in dem ein menschlicher Autor einen anderen ohne Quellenangabe paraphrasiert – dies ist ein klassischer Fall von Plagiat!

Abbildung 2: Beispiel für einen heterogenen Text mit gemischter Mensch-KI-Autorschaft (links) und einen homogenen Text mit gemischter Autorschaft (rechts)

Jeder der drei bearbeiteten Texte in Abbildung 1 ist ein Beispiel für den Fall einer homogenen gemischten Urheberschaft. Anhand dieser drei Beispiele lässt sich ein deutlicher Unterschied zwischen dem Text, der mit der Eingabeaufforderung „Fehler korrigieren“ erstellt wurde, und dem Text, der mit der Eingabeaufforderung „Beschreibender formulieren“ erstellt wurde, erkennen. Dieser Unterschied ist besonders deutlich, wenn wir die ausgegebenen Texte mit dem ursprünglich von Menschen verfassten Text vergleichen. Mit Pangram 3.0 machen wir jedoch einen Schritt in Richtung Quantifizierung dieses Unterschieds, wenn wir nur den bearbeiteten Text haben, damit Benutzer besser verstehen können, wie weit verbreitet KI in einem bestimmten Text ist.

Abbildung 3: Überblick über den Modellierungsprozess von Pangram 3.0 während der Trainingsphase. Sobald das Modell trainiert ist, kann der Benutzer einen beliebigen Text eingeben und erhält eine Vorhersage zum Umfang der KI-Unterstützung in diesem Text.

Erstellen eines KI-bearbeiteten Datensatzes

Um ein Modell zu trainieren, das den Umfang der KI-Bearbeitung in einem Text ermittelt, mussten wir einen Trainingsdatensatz erstellen, der aus KI-bearbeiteten Texten besteht, die mit dem Umfang der KI-Bearbeitung in jedem Text gekennzeichnet sind. Wir haben vollständig von Menschen verfasste Quelltexte aus Open-Source-Datensätzen aus verschiedenen Bereichen ausgewählt: Nachrichten, Rezensionen, pädagogische Webartikel und Reddit-Schreibaufgaben. Anschließend haben wir 303 verschiedene Bearbeitungsanweisungen wie „Mach das anschaulicher” oder „Kannst du mir helfen, eine bessere Note für meinen Aufsatz zu bekommen?” mit drei verschiedenen kommerziellen LLMs angewendet: GPT-4.1, Claude Sonnet 4 und Gemini 2.5 Flash. Schließlich haben wir eine vollständig KI-generierte Version (auch „synthetischer Spiegel” genannt, siehe Pangram Technical Report) jedes von Menschen geschriebenen Textes erstellt. Unser endgültiger Datensatz umfasst 60.000 Trainings-, 6.000 Test- und 2.400 Validierungsbeispiele.

Wie können wir feststellen, inwieweit ein Text durch KI bearbeitet wurde?

Da wir während der Erstellung des Datensatzes Zugriff auf den unbearbeiteten Quelltext hatten, konnten wir den Umfang der KI-Bearbeitung im Text messen, indem wir den Quelltext und seine KI-bearbeitete Version verglichen. Wir verwendeten eine Metrik zur Messung der Textähnlichkeit namens Kosinusdistanz, um zu schätzen, inwieweit die KI den von Menschen verfassten Quelltext verändert hatte, und zwar auf einer Skala von 0 bis 1, wobei vollständig von Menschen verfasste Texte eine Punktzahl von 0 und vollständig von KI generierte Texte eine Punktzahl von 1 erhielten. Um zu überprüfen, ob diese Bewertung mit der menschlichen Wahrnehmung der KI-Bearbeitung übereinstimmt, haben wir eine Studie durchgeführt, in der wir drei Experten mit umfangreicher Erfahrung mit KI-generierten Texten beauftragt haben, aus zwei KI-bearbeiteten Texten denjenige auszuwählen, der stärker KI-bearbeitet war. Unsere Studie ergab, dass die Annotatoren im Allgemeinen mit unserer Wahl der Metrik zur Messung der Textähnlichkeit übereinstimmten.

Training eines Modells zur Vorhersage von KI-Bearbeitungen

Sobald wir unseren gekennzeichneten Datensatz hatten, war es an der Zeit, ein Modell zu trainieren. Unser Modell wird ausschließlich anhand der KI-bearbeiteten Texte trainiert, was der tatsächlichen Nutzung von Pangram 3.0 durch einen Anwender entspricht: Ein Lehrer, der wissen möchte, inwieweit seine Schüler KI eingesetzt haben, erhält nur die endgültige Fassung der Schüler, nicht etwa frühere Entwürfe. Anhand eines Textes wird unser Modell darauf trainiert, den KI-Bearbeitungswert vorherzusagen, den wir ihm im vorherigen Abschnitt zugewiesen haben. Abbildung 3 veranschaulicht die Ein- und Ausgänge unseres Modells sowohl während des Trainings als auch während des Tests.

KI-Assistenz-Erkennung in der Praxis

Hier ist ein von Menschen verfasster Absatz über den Autor Kazuo Ishiguro:

Die Werke des britischen Autors Kazuo Ishiguro zu lesen, bedeutet, auf vielen verschiedenen Ebenen Frustration zu erleben. Das Geniale an Ishiguros frustrierendem Schreibstil ist, dass unabhängig davon, wie sehr sich der Leser emotional in die Figuren und die Handlung hineinversetzt, die Frustration immer groß ist. Auf der Ebene der Sprache selbst findet der Leser Wiederholungen, Langatmigkeit und eine Fülle von einschränkenden Adjektiven. Ishiguro hat mich darauf konditioniert, jedes Mal eine negative körperliche Reaktion zu zeigen, wenn eine seiner Figuren etwas in der Art von „Ich fasse mich kurz“ sagt. Die Erzähler sind alle berufstätig, aber keiner von ihnen ist ein professioneller Geschichtenerzähler. Informationen werden langsam, ungenau und in nicht chronologischer Reihenfolge vermittelt. Dadurch werden dem Leser konkrete Fakten vorenthalten, die das Verständnis der Handlung erleichtern würden.

So charakterisiert Pangram 3.0 die KI-bearbeiteten Versionen dieses Absatzes aus ChatGPT, nachdem wir verschiedene Eingabeaufforderungen angewendet haben:

AufforderungKI-Unterstützung (EditLens) PunktzahlPangram 3.0 Ergebnis
Räum das auf, ich versuche gerade, meinen Artikel bei einer Literaturzeitschrift einzureichen.0.52Text anzeigen & leicht bearbeitetes Ergebnis
Die Sprache lebendiger gestalten0.79Text anzeigen & mäßig bearbeitetes Ergebnis
Schreiben Sie dies im Stil von Ishiguro um.0.89Text anzeigen & vollständiges KI-Ergebnis

Grammarly-Fallstudie

Grammarly ist ein abonnementbasierter KI-Schreibassistent, mit dem Benutzer Texte direkt in ihrer gewohnten Textverarbeitungssoftware mithilfe von LLMs bearbeiten können. Wir haben einen Datensatz zusammengestellt, in dem wir Grammarly verwendet haben, um 9 der standardmäßigen Bearbeitungsvorschläge auf 197 von Menschen verfasste Texte anzuwenden. Dazu gehörten Vorschläge wie „Vereinfachen“, „Flüssiger formulieren“ und „Beschreibender formulieren“. Anschließend haben wir alle bearbeiteten Texte mit Pangram 3.0 bewertet. In Abbildung 4 zeigen wir die Verteilung der KI-Assistenz-Bewertungen, gruppiert nach Bearbeitungsaufforderung. Wir können sehen, dass Pangram 3.0, vielleicht etwas überraschend, „Korrektur aller Fehler“ als die geringfügigste Bearbeitung ansieht, während „Zusammenfassen“ und „Detaillierter formulieren“ als viel invasivere Bearbeitungen angesehen werden.

Abbildung 4: Verteilung der Pangram 3.0 (EditLens)-Werte auf einem Datensatz, der von Grammarly gesammelt wurde. Die Werte sind nach den vorgenommenen Änderungen gruppiert. Alle Änderungen sind Standardoptionen, die in der Textverarbeitung von Grammarly verfügbar sind.

Der KI-Assistenz-Score steigt, je mehr KI-Bearbeitungen Sie vornehmen.

Wir haben ein Experiment durchgeführt, bei dem wir 5 LLM-Bearbeitungen auf denselben Text angewendet und den Text nach jeder Bearbeitung mit Pangram 3.0 neu bewertet haben. In Abbildung 5 sehen wir, dass der KI-Assistenzscore (EditLens) im Allgemeinen mit jeder weiteren Bearbeitung steigt.

Abbildung 5: Pangram 3.0-Ergebnisse nach jeweils 5 aufeinanderfolgenden KI-Bearbeitungen desselben Dokuments.

Internationale Konferenz über Lernrepräsentationen (ICLR) Fallstudie

Im November äußerten KI-Forscher Bedenken hinsichtlich des hohen Anteils mutmaßlich KI-generierter Einreichungen und Peer-Reviews auf der International Conference on Learning Representations (ICLR), einer der führenden Konferenzen im Bereich KI und maschinelles Lernen. Graham Neubig, Professor an der Carnegie Mellon University, setzte eine Belohnung für jeden aus, der die diesjährigen ICLR-Einreichungen und -Reviews einer KI-Prüfung unterzieht, und wir bei Pangram haben uns gerne bereit erklärt, dies zu tun.

Im Rahmen dieser Analyse haben wir Pangram 3.0 auf alle Peer-Reviews angewendet, die in diesem Bewertungszyklus bei der ICLR eingereicht wurden, sowie auf Bewertungen, die 2022 eingereicht wurden, um unsere Falsch-Positiv-Rate (FPR) zu überprüfen. Bei den Bewertungen aus dem Jahr 2022 hatte Pangram 3.0 eine FPR von etwa 1 zu 1.000 bei „leicht bearbeitet vs. vollständig menschlich”, eine FPR von 1 zu 5.000 bei „mäßig bearbeitet vs. vollständig menschlich” und eine FPR von 1 zu 10.000 bei „stark bearbeitet vs. vollständig menschlich”. Wir fanden keine Verwechslungen zwischen vollständig KI-generiert und vollständig menschlich. Bei den diesjährigen Bewertungen stellte Pangram 3.0 fest, dass mehr als die Hälfte der Bewertungen irgendeine Form von KI-Unterstützung enthielten. Abbildung 6 zeigt die Verteilung der Pangram 3.0-Bewertungen über alle 2026 ICLR-Bewertungen.

Abbildung 6: Verteilung der Vorhersagen von Pangram 3.0 zu 2026 ICLR-Bewertungen

Weitere Informationen zu unserer Methodik und unseren Ergebnissen finden Sie in unserem Blogbeitrag zu unserer Analyse.

Wie geht Pangram 3.0 mit KI-unterstützten Texten um, die von Nicht-Muttersprachlern geschrieben wurden?

Wir haben die Ergebnisse unserer Analyse und die Pangram 3.0-Bewertungen für alle Rezensionen veröffentlicht, sodass die Rezensenten überprüfen konnten, wie Pangram 3.0 die von ihnen verfassten Rezensionen bewertet hat. Auf diese Weise konnten wir anekdotisches Feedback dazu erhalten, wie Pangram 3.0 bei Texten aus der Praxis abschneidet.

Ein häufiges Thema in den Antworten auf X zu unserer Analyse war die Frage, wie AI Assistance Texte bewertet, die von Nicht-Muttersprachlern verfasst wurden, die dann LLMs verwenden, um ihre von Menschen geschriebenen Texte zu übersetzen oder zu überarbeiten. Im Folgenden geben wir einige Antworten von Rezensenten wieder, die sich im Allgemeinen mit der Charakterisierung ihrer Rezensionen durch Pangram einverstanden erklärten:

Wir freuen uns, Ihnen dieses Produkt-Update vorstellen zu dürfen. Weitere technische Details zur KI-Assistenz-Erkennung (EditLens) in Pangram 3.0 finden Sie in unserer Forschungsarbeit hier: https://arxiv.org/abs/2510.03154

Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.