Dieser Blogbeitrag wurde vom Substack-Kanal des Autors übernommen. Folgen Sie ihm hier!
Offenlegung der Finanzierung: Die OpenRouter-Guthaben wurden von Pangram zur Durchführung dieser Untersuchung bereitgestellt, und die ursprüngliche Idee für diese Untersuchung stammt von Max Spero, dem CEO von Pangram. Ich habe mich nach Kräften bemüht, unvoreingenommen zu bleiben, und der folgende Text spiegelt meine ehrliche Meinung wider.
Als ChatGPT gerade erst auf den Markt kam, gab es mehrere viel beachtete Fälle, in denen Menschen versuchten, es als KI-Detektor zu nutzen – das heißt, sie fütterten das Programm mit einem Text und fragten es direkt, ob dieser von einer KI generiert worden sei oder nicht. Die „Washington Post“ berichtete über einen Professor der Texas A&M University, der mehreren Studierenden die Note Null gegeben hatte, weil ChatGPT die Urheberschaft für ihre Arbeiten beanspruchte. Eine Assistenzprofessorin an der University of San Francisco erklärte ihren Kollegen: „Wir müssen nur fragen: ‚Hast du das geschrieben?‘, und dann die studentische Arbeit in das Eingabefeld kopieren und einfügen.“ – nur um anschließend einen Blogbeitrag über die absurde Anzahl von Fehlalarmen zu verfassen, die dadurch ausgelöst wurden. Als kürzlich der Gewinner eines von Granta ausgeschriebenen Kurzgeschichtenwettbewerbs beschuldigt wurde, KI verwendet zu haben, setzte Granta Claude ein, um zu untersuchen, ob der Gewinnertext tatsächlich von einer KI generiert worden war.
Auch wenn diese Versuche naiv und vielleicht ein wenig amüsant erscheinen mögen – schließlich hat ChatGPT keine Möglichkeit zu überprüfen, ob es einen Text generiert hat, und muss sich auf sein Bauchgefühl verlassen (genau wie ein Mensch). Aber für einen Laien ist diese Schlussfolgerung nicht unvernünftig: ChatGPT kann Geschichten wie ein menschlicher Autor schreiben, und menschliche Autoren können ihre Werke erkennen bzw. sich an sie erinnern – warum also nicht auch ChatGPT? Zudem gibt es andere Formen der Überprüfung von KI-generierten Inhalten, wie beispielsweise SynthID für Bilder, Audio und Video. Warum also nicht auch eine für Text? Die Antwort, dass SynthID ein erkennbares Wasserzeichen erfordert, ist nicht auf den ersten Blick ersichtlich. Noch verwirrender ist, dass Gemini, wenn man es fragt, ob ein Bild KI-generiert ist, einfach antwortet: „Ja, der größte Teil oder das gesamte Bild wurde mit Google-KI generiert oder bearbeitet.“ – wodurch die Überprüfung des SynthID-Wasserzeichens verschleiert wird und der Eindruck entsteht, dass Gemini dies allein anhand des „Gefühls“ visuell ableiten kann. Um also all diese Unklarheiten zu beseitigen:
Und historisch gesehen waren die Intuitionen von LLMs schlecht! Das leuchtet völlig ein – die früheste Generation von LLMs für Endverbraucher – GPT-3.5 und GPT-4, vielleicht auch Claude 3 – wurde ausschließlich mit Daten trainiert, die aus der Zeit vor der „AI-Flut“ im Internet stammten. Ihr Kontakt mit KI-generierten Texten war wahrscheinlich begrenzt, wenn nicht gar nicht vorhanden, daher ist es nur natürlich, dass ihre Zero-Shot-Leistung schlecht war. Das wirft jedoch die Frage auf: Hätten modernere LLMs, die auf aktuelleren Daten trainiert wurden, vielleicht eine bessere Intuition?
Adam Kucharski hat dies auf seinem Substack untersucht, und die ersten Ergebnisse sind vielversprechend: Claude konnte zwei von einer KI generierte Story-Anfänge von einem von einem Menschen verfassten unterscheiden, zehn von GPT-5.5 verfasste Geschichten mit einer Wahrscheinlichkeit von über 80 % als KI-generiert identifizieren und wies zehn Geschichten aus Kucharskis persönlichem Schaffen eine Wahrscheinlichkeit von höchstens 22 % zu, von einer KI verfasst worden zu sein. Noch vielversprechender ist, dass Kucharski GPT-5.5 bat, jede seiner zehn Geschichten zu „verbessern“, woraufhin sich fünf von den von Menschen verfassten Geschichten in KI-generierte verwandelten. Das sind 23 Erfolge bei der direkten KI-Klassifizierung und fünf Erfolge bzw. fünf Fehlschläge bei der Klassifizierung der KI-Bearbeitung.
Dies wirft die Frage auf: Wann ist diese Fähigkeit zur KI-Erkennung entstanden? Um dies zu testen, habe ich den offenen Datensatz „editlens-iclr“ von Pangram verwendet, der zahlreiche Beispiele für von Menschen verfasste Textpassagen und KI-generierte Entsprechungen derselben Passagen enthält. Zunächst habe ich eine Stichprobe von 100 Textpassagen – 50 von Menschen verfasste und 50 KI-generierte – ausgewählt und eine Reihe von Modellen – sowohl historischer als auch aktueller – hinsichtlich ihrer Zero-Shot-Genauigkeit bewertet. Um die auf „Vibes“ basierende Klassifizierung – also die Intuition, die ich zu erfassen versuchte – zu maximieren, führte ich dieses Experiment durch, wobei ich die Schlussfolgerungsfunktion, sofern verfügbar, deaktivierte und strenge Anweisungen gab, nur mit einem Wort zu antworten. Daraus ergab sich das folgende „Zero-Shot“-Prompt-Format:
Zero-Shot-Prompt-Format
Die Ergebnisse sind unten aufgeführt und durchaus beeindruckend:
Zero-Shot-Leistung nach Veröffentlichungsdatum
Wir sehen, dass GPT-4 bei 52 % startet – nicht besser als der Zufall –, was der Einschätzung aus den Jahren 2023/2024 entspricht, dass KI nicht in der Lage ist, ihre eigenen Texte zu erkennen (GPT-3.5-Turbo erreichte 49 % und ist in der obigen Grafik nicht enthalten). Ein Sprung in den Frühling und Sommer 2025: GPT-4.1 erreicht 71 %, Sonnet 4 62 % und Opus 4 69 %. Was dann folgt, ist ein rascher Leistungsanstieg von Mitte des Sommers 2025 bis Anfang 2026 – wobei sowohl die GPT- als auch die Claude-Serie bei dieser Stichprobe von 100 Beispielen Genauigkeiten von über 90 % erreichen. Dieser Sprung vollzieht sich, wenn auch etwas später, auch bei der Qwen-Plus-Reihe, deren Genauigkeit von 55 % bei der Version Qwen3.5 Plus auf 83 % bei Qwen3.6 Plus – das nur zwei Monate später veröffentlicht wurde – sprunghaft ansteigt.
Man könnte sich fragen, ob sich dieser „Zero-Shot“-Vorteil hauptsächlich durch die Vertrautheit mit KI-generierten Inhalten erklären lässt oder ob es sich lediglich um einen Intelligenzunterschied handelt – wobei intelligentere Pioniermodelle als bessere Klassifikatoren dienen. Um dies zu überprüfen, können wir untersuchen, wie sich die Genauigkeit verändert, wenn wir „Few-Shot“-Beispiele (die natürlich aus dem Trainingsdatensatz stammen und pro Frage zufällig ausgewählt werden) in den Kontext einfügen. Dadurch wird unser Prompt-Format auf die folgende „Few-Shot“-Vorlage erweitert:

Wenn sich ältere Modelle bei diesem „Few-Shot“-Prompt-Format durch die Einbeziehung der richtigen Zuordnungen zwischen Eingaben und Labels deutlich verbessern, dann liegt der Engpass in der Vortrainingserfahrung und nicht in der Intelligenz. Und genau das beobachten wir auch:
ICL-Diagramm für GPT pro Frage
Während GPT-4 im Zero-Shot-Test nur 52 % erreicht, liegt die Leistung bei 4-Shot1 erreicht es 85 %. Es ist offensichtlich, dass GPT-4 im Kontext lernen kann, zwischen KI-generierten und von Menschen verfassten Texten zu unterscheiden – es fehlt ihm lediglich das angeborene, vortrainierte Wissen darüber, wie dies zu bewerkstelligen ist. Dies wird dadurch unterstrichen, dass sich die Zero-Shot-Leistung im Laufe der Modellgenerationen fast monoton verbessert, während die Few-Shot-Leistung nach ~GPT-5.1 nahezu unverändert bleibt und erst bei GPT-5.5 merklich auf 99 % ansteigt. Diese Erkenntnisse deuten stark darauf hin, dass die fehlende Zutat, damit LLMs zu halbwegs brauchbaren Zero-Shot-KI-Detektoren werden, schlichtweg geeignete Vortrainingsdaten (oder „Gold“-Beispiele im Kontext) waren – und nicht etwa eine intrinsische Einschränkung ihrer Natur oder Intelligenz.
Um die Auswirkungen des „Few-Shot-In-Context-Learning“ auf die ICL-Erkennungsfähigkeit weiter zu untersuchen, benötigte ich einen schwierigeren Datensatz, um mehr Signale extrahieren zu können – schließlich ist es nicht mehr sinnvoll, wenn moderne Spitzenmodelle bei einer Bewertung mit 100 Fragen eine Trefferquote von 95 % erzielen. Um diesen schwierigen Datensatz zu erstellen, habe ich den Pangram-Datensatz so gefiltert, dass nur Beispiele übrig blieben, die Qwen 3.7 Plus zweimal (bei temp=0,7) in die Irre geführt haben. Dadurch erhielt ich 3.503 KI-generierte Beispiele und 763 von Menschen verfasste Beispiele – diese habe ich anschließend (mittels gleichmäßiger Zufallsauswahl) klassenausgeglichen, um den endgültigen schwierigen Datensatz mit 763 KI-generierten und 763 von Menschen verfassten Beispielen zu erstellen.
Ich bewerte sowohl Sonnet 4.6 als auch GPT-5.5 anhand dieses anspruchsvollen Datensatzes bei 0, 1, 2, 4 und 8 „Shots“, sowohl mit deaktivierter als auch mit aktivierter Schlussfolgerungsfunktion (mittlerer Aufwand bei GPT-5.5, einfaches erweitertes Denken bei Sonnet 4.6 aus Gründen der Kosteneffizienz):
Aufbereitete Sonett-4.6-Tabelle
Bereinigte GPT-5.5-Tabelle
Wir sehen, dass GPT-5.5 Sonnet 4.6 im Zero-Shot-Test bei weitem übertrifft – was vorhersehbar war, da GPT-5.5 im April 2026 und Sonnet 4.6 im Februar 2026 veröffentlicht wurden. Bemerkenswert ist, dass sich dieser Abstand mit ICL erheblich verringert – während GPT-5.5 (bei deaktivierter Schlussfolgerung) im Zero-Shot-Modus 86,8 % gegenüber 72,9 % bei Sonnet 4.6 erreicht, liegt GPT-5.5 bei 8 Shots mit 96,2 % gegenüber 93,8 % bei Sonnet 4.6. Dies untermauert einmal mehr, dass es sich bei einem Großteil der KI-Erkennung um eine Fähigkeit handelt, die – wie fast jede andere Art der Textklassifizierung – im Kontext vermittelt werden kann.
Bemerkenswert ist, dass das logische Schlussfolgern zwar bei GPT-5.5 zu einer deutlichen Leistungssteigerung um einige Prozentpunkte führt, Sonnet 4.6 jedoch nur im Zero-Shot-Bereich wirklich hilft (mit +2,2 %) und danach entweder kaum nachteilig oder kaum vorteilhaft wirkt. Statistische Tests bestätigen dies – nach Bonferroni-Korrektur bleibt der Vorteil von GPT-5.5 durch das Schlussfolgern bei 0, 1, 2 und 8 „Shots“ statistisch signifikant, während Sonnet 4.6 nur bei null „Shots“ einen signifikanten Effekt aufweist.
Dies scheint darauf hinzudeuten, dass Rechenleistung während der Testphase zwar bei der Klassifizierung von KI-Textbeiträgen hilfreich sein kann, jedoch nur bestimmte Modellfamilien über die erforderlichen Trainingskapazitäten bzw. Fähigkeiten verfügen, um diese im Vergleich zur unmittelbaren Intuition effektiv anzuwenden, und dass die Vorteile im Vergleich zur einfachen Bereitstellung weiterer kontextbezogener Beispiele, aus denen gelernt werden kann, nicht besonders groß sind. In zukünftigen Arbeiten könnte GPT-5.5 bei hohen oder sehr hohen Schlussfolgerungsstufen getestet werden, um zu prüfen, ob sich die Vorteile fortsetzen.
Zusammenfassend lässt sich sagen, dass moderne LLMs erfolgreich von KI generierte Texte von menschlichen Texten unterscheiden können, dass diese Fähigkeit wahrscheinlich auf eine stärkere Exposition gegenüber KI-generierten Inhalten während des Vortrainings zurückzuführen ist und dass sie zwar geringfügig von der Rechenleistung während der Testphase profitiert, jedoch in hohem Maße von mehr kontextbezogenen Beispielen (insofern, als ältere LLMs wie GPT-4 dies ausgehend von einer „Zero-Shot“-Baseline auf Zufallsniveau erlernen können). Dies widerspricht der früheren Darstellung, dass ChatGPT nicht in der Lage sei, zu erkennen, ob ein Text von einer KI generiert wurde. Dennoch würde ich sie in der Praxis nicht als KI-Detektoren einsetzen – auf dem „Hard Set“ weist das leistungsstärkste Modell – GPT-5.5 mit mittlerer Schlussfolgerungsfähigkeit – eine Falsch-Positiv-Rate von 4,59 %, was selbst für den gelegentlichen Gebrauch inakzeptabel ist (zum Vergleich: Eine aktuelle Studie ergab, dass die durchschnittliche Falsch-Positiv-Rate von fünf erfahrenen menschlichen Annotatoren bei 5,6 % lag, ein Ensemble dieser Annotatoren jedoch eine FPR von 0 % aufwies). Wenn Sie nach einem zuverlässigen Detektor suchen, würde ich Pangram empfehlen, allerdings mit den Einschränkungen, die ich in meinem Artikel „In Defense of Pangram“ erörtert habe. Ungeachtet dessen finde ich diese Fähigkeit nach wie vor ziemlich faszinierend – und ich hielt es für wichtig, dies zu dokumentieren, da die gängige Meinung der letzten Jahre lautete, dass LLMs völlig unfähig seien, von LLMs generierte Texte zu erkennen. Stattdessen ist es besser, LLMs bei der Erkennung von KI-Texten grob auf dem Niveau „guter bis erfahrener Mensch“ einzustufen. Sie sind zwar recht genau, weisen jedoch Falsch-Positiv-Raten im einprozentigen Bereich auf, was ihre Verdachtsmeldungen unbrauchbar macht.
Beachten Sie, dass „4-Shot“ hier 4 KI-Beispiele und 4 menschliche Beispiele bedeutet – nicht insgesamt 4 Beispiele. ↩

Nathan Breslow – online bekannt unter dem Pseudonym N8Programs – ist Bachelor-Student im Fach Angewandte Mathematik an der Johns Hopkins University. Darüber hinaus beschäftigt er sich am Intelligence Amplification Lab mit kontextbezogenem Lernen in großen Sprachmodellen (LLMs), arbeitet an lokalen Inferenz-Frameworks mit und führt das Vortraining von Sprachmodellen für exotische Modalitäten durch. Die hier geäußerten Ansichten sind seine eigenen.






