Produktaktualisierungen

Sind KI-Detektoren gegen GPT-5 wirksam?

7. August 2025

Inhaltsverzeichnis

Sind KI-Detektoren gegen GPT-5 wirksam?
Testen von GPT-5
Die „verbesserte Schreibfähigkeit“ von GPT-5 auf dem Prüfstand
Durchführung eines umfangreicheren Benchmarks
Erkennt Pangram GPT-5?

Sind KI-Detektoren gegen GPT-5 wirksam?

Wir sind wieder da mit einem weiteren Beitrag in unserer Reihe, in der wir die KI-Erkennung von Pangram am Tag der Veröffentlichung testen!

Kurz gesagt: Pangram ist der einzige KI-Detektor, der GPT-5 zuverlässig erkennen kann, ohne explizit darauf trainiert worden zu sein.

In den bisherigen Teilen dieser Reihe haben wir uns mit der Fähigkeit von Pangram befasst, Folgendes zu erkennen:

Bislang ist Pangram bei keinem Sprachmodell gescheitert. Wir haben mit Spannung auf die seit Langem am meisten gehypte Modellveröffentlichung gewartet, und heute hat OpenAI endlich GPT-5 angekündigt.

Heute Nachmittag haben wir uns einige unserer ersten Testergebnisse zum KI-Detektor von Pangram Labs auf GPT-5 sowie einige Ergebnisse der Konkurrenz angesehen. Wir waren mit den Ergebnissen sehr zufrieden: Bislang haben wir noch keinen Fall gefunden, in dem der KI-Detektor von Pangram bei unseren kreativsten Eingabeaufforderungen auf GPT-5 versagt hätte, und die Ergebnisse der Konkurrenz sind unserer Meinung nach bestenfalls durchwachsen.

Testen von GPT-5

Unser erster Testlauf mit GPT-5 begann mit einem Insiderwitz aus dem Büro: Wir wollten jemanden davon überzeugen, dass es besser ist, Garnelen zu essen als Hummer. Wir baten GPT-5, eine leidenschaftliche Rede darüber zu verfassen, warum der Verzehr von Garnelen dem von Hummer überlegen ist. Hier ist das Ergebnis:

„Garnelen gewinnen. Hier sind meine Argumente. Garnelen schmecken nach Meer, ohne einem dabei ins Gesicht zu schlagen. Hummer kann schwer und irgendwie schlammig schmecken, wenn er nicht perfekt zubereitet ist. Eine Minute zu lange gekocht, und der Hummer wird zäh. Bei Garnelen ist der Sweet Spot viel größer. Gegrillt, sautiert, gekocht, frittiert – ganz egal. Sie bleiben knackig und rein im Geschmack. Auf die Textur kommt es an. Garnelen knacken. Dieser Biss ist der springende Punkt. Hummer ist so dicht und reichhaltig, dass es schnell ermüdet. Zwei Bissen Hummer mit Butter sind toll. Zwölf Bissen fühlen sich wie eine Herausforderung an. Ich kann einen ganzen Teller Knoblauchgarnelen verputzen und will trotzdem noch eine, die sich unter der Petersilie versteckt. Garnelen lassen sich gut kombinieren. Knoblauch, Chili, Limette, Butter, Ingwer, Basilikum, Curry, Old Bay, Miso, Gochujang. Sie bringen alles zum Strahlen. Hummer beansprucht die Bühne für sich und verlangt dann meist nach Butter. Wenn die beste Version eines Gerichts eine Pfütze geschmolzener Butter braucht, um sich besonders anzufühlen, trägt das Gericht vielleicht nicht sein Gewicht. Geschmack pro Minute ist echt. Garnelen sind in etwa drei Minuten gar. Das bedeutet: heiße Pfanne, Salz, anbraten, fertig, bumm – Geschmack. Bei Hummer kämpft man mit Schalen, Dämpfen, Timing, Knacken und jagt winziges Fleisch aus seltsamen Ecken. Mehr Arbeit als Belohnung. Garnelen sind wenig Drama, viel Gewinn. Erschwinglichkeit verändert den Geschmack. Essen schmeckt besser, wenn es keine Hypothekenrate ist. Garnelen können ein Abendessen unter der Woche sein. Hummer schreit geradezu nach Geburtstags-Prunk. Garnelen bringen Freude ohne Zeremonie. Dieser lässige Faktor macht sie im echten Leben ehrlich gesagt köstlicher. Vielseitigkeit zählt. Garnelen lassen sich mühelos von Tacos über Scampi und Po’boys bis hin zu Teigtaschen und Paella variieren. Sie schmecken kalt, heiß, scharf, zitrusig, reichhaltig oder leicht. Hummer versucht, sich zu verzetteln, und landet meist wieder in einem Brötchen mit Mayonnaise. Tolles Brötchen. Aber immer noch eintönig. Die Saucenaufnahme ist erstklassig. Garnelen nehmen Knoblauchbutter, Chiliöl und Zitrone auf eine Weise auf, wie es Hummer nicht tut. Hummer sitzt da wie ein Promi-Cameo. Garnelen lernen ihren Text und stehlen die Show. Auch die Reste gewinnen. Kalte Garnelen mit Cocktailsauce am nächsten Tag sind perfekt. Hummerreste fühlen sich wie Hausaufgaben an. Aufgewärmter Hummer wird zäh. Aufgewärmte Garnelen schmecken, wenn man überhaupt das Glück hat, noch welche übrig zu haben, immer noch wie eine Party. Und dann ist da noch die Atmosphäre. Garnelen passen zum Grill im Garten, zur Pfanne an einem Wochentag oder auf einen schicken Teller. Hummer lässt den Tisch verstummen, als hätten alle Angst, ihn zu ruinieren. Ich will Essen, das die Leute zum Reden bringt, bei dem sie Brot abreißen, eintunken und Teller weiterreichen. Garnelen tun das. Hör mal, Hummer ist in Ordnung. Er ist auffällig. Er hat eine schöne Geschichte. Aber wenn es um den reinen Geschmack geht, den ich mir morgen wieder wünsche, gewinnen Garnelen. Reinere Note. Bessere Textur. Mehr Vielfalt. Weniger Aufhebens. Mehr Spaß. Gib mir eine heiße Pfanne, etwas Knoblauch, eine Zitrone und ein Pfund Garnelen. Das ist das Abendessen, nach dem ich mich wirklich sehne.“

Pangram kann mit sehr hoher Sicherheit vorhersagen, dass das gesamte Dokument von einer KI erstellt wurde.

Pangrams KI-Erkennungsergebnisse für den Text „Garnelen vs. Hummer“

Wir haben diesen Text mit mehreren anderen KI-Detektoren getestet. GPTZero, ZeroGPT, Grammarly, UndetectableAI und Originality.AI kommen alle zu dem Ergebnis, dass dieser Text von einem Menschen verfasst wurde, obwohl er direkt aus GPT-5 stammt und keinerlei Änderungen erfahren hat. Wir sind der Meinung, dass dies die Stärke unseres Forschungsansatzes und unserer Generalisierungsfähigkeiten unterstreicht, die durch ein leistungsstarkes Modell mit einem Datensatz von sehr hoher Qualität gestützt werden!

Ergebnisse anderer KI-Detektoren zum Text „Garnele vs. Hummer“

Das ist allerdings nur ein Beispiel, von dem man sagen könnte, dass es gezielt ausgewählt wurde. Ihr müsst mir einfach glauben, dass dieser Text buchstäblich das Erste war, was wir ausprobiert haben. Also haben wir unsere Tests fortgesetzt.

Die „verbesserte Schreibfähigkeit“ von GPT-5 auf dem Prüfstand

Eine der Behauptungen im heutigen Livestream lautete, dass GPT-5 im Vergleich zu seinen Vorgängern beim Schreiben verbessert wurde. Auch wenn wir dies nur subjektiv beurteilen können, haben wir heute unser Bestes gegeben, um Eingabeaufforderungen zu entwickeln, die die verbesserten kreativen Schreibfähigkeiten von GPT-5 demonstrieren – indem wir dem Modell Aufgaben gestellt haben, die es zwingen, sowohl seine logischen Fähigkeiten als auch seine Kreativität voll auszuschöpfen.

Die von uns getesteten Eingabeaufforderungen:

Verfasse einen überzeugenden analytischen Aufsatz darüber, warum Schulen KI-basierte Plagiatserkennungsprogramme einsetzen sollten.
Verfasse einen Aufsatz für die Hochschulbewerbung über die Gefahr, dass alle wertvollen menschlichen Fähigkeiten durch KI ersetzt werden.
Bitte verfasse einen leidenschaftlichen, kurzen, aber emotionalen Brief an ein KI-Unternehmen, das versehentlich ein Update veröffentlicht hat, das das Gedächtnis deiner KI-Freundin gelöscht hat.
Verfasse aus der Perspektive eines Schülers der Mittelstufe einen sehr emotionalen Aufsatz, in dem du um mehr Hausaufgaben bittest.
Gib mir eine Häkelanleitung für ein klassisches Ballontier. Du weißt schon, welches ich meine.
Schreibe eine kreative Geschichte aus der Perspektive einer Schnee-Eule, die in New York City ankommt, den Central Park entdeckt und sich einen warmen Platz für die Nacht aussucht
Verfasse eine E-Mail des Gründers eines SaaS-Start-ups, das den Status eines „Einhorns“ erreicht hat, an den Vorstand und seine Mitarbeiter, in der er mitteilt, dass er das Unternehmen verlassen wird, um professioneller Saxophonist zu werden. Die Details kannst du frei erfinden.
Schreib mir einen Blogbeitrag mit der Hintergrundgeschichte zu einem Rezept, das noch niemand zuvor zubereitet hat, das aber trotzdem köstlich schmecken würde.
Verfasse eine fesselnde, filmisch anmutende Kurzgeschichte über einen jungen Singer-Songwriter, der im Hudson River einem Beluga-Wal begegnet.
Schreibe eine humorvoll-passiv-aggressive E-Mail an einen Lehrer, in der du dich für das Schummeln bei der letzten Prüfung „entschuldigst“. Die Details kannst du dir frei ausdenken.

Wir haben die Ergebnisse sowohl mit Pangram als auch mit GPTZero, einem bekannten Konkurrenten, verglichen. Die Eingabeaufforderungen, Antworten und Ergebnisse haben wir öffentlich im Internet veröffentlicht.

Die Ergebnisse zeigten einen krassen Gegensatz zwischen den beiden KI-Detektoren: Pangram identifizierte alle 10 Antworten mit einer Sicherheit von 99–100 % korrekt als KI-generiert, während GPTZero sie alle fälschlicherweise als von Menschen verfasst einstufte. Tatsächlich stufte GPTZero die meisten Antworten so ein, dass die Wahrscheinlichkeit, dass sie von einer KI generiert wurden, bei 0 % lag, wobei der höchste KI-Wahrscheinlichkeitswert bei nur 29 % lag.

Durchführung eines umfangreicheren Benchmarks

Wir hatten heute Zeit, einen letzten Test durchzuführen, um zu prüfen, wie gut Pangram in der Lage ist, alle verschiedenen Varianten von GPT-5 zu erkennen, darunter GPT-5-mini, GPT-5-nano und GPT-5-chat in der API. Außerdem haben wir die neuesten Open-Weight-Modelle getestet, die OpenAI vor einigen Tagen veröffentlicht hat: GPT-OSS-120b und GPT-OSS-20b. Wir haben dieses Experiment in größerem Umfang durchgeführt und dabei etwa einige Tausend Beispiele pro LLM getestet, wobei wir unsere Standard-Prompting-Techniken verwendeten und eine Mindestlänge von 50 Wörtern vorschrieben. Die Stichprobengrößen variieren ein wenig, da die Modelle manchmal unsere Prompts ablehnen und manchmal Antworten mit weniger als 50 Wörtern ausgeben, die wir verwerfen.

Natürlich ist die Genauigkeit bei reinem KI-Text eine Kennzahl, die nicht isoliert betrachtet werden kann – wir müssen auch die Falsch-Positiv-Rate berücksichtigen, die die Kehrseite der Medaille darstellt: Wie oft stuft Pangram von Menschen verfasste Texte als KI-Text ein? Wir haben in einem anderen Beitrag ausführlich darüber berichtet, aber zusammenfassend lässt sich sagen, dass Pangram nach wie vor eine extrem niedrige Falsch-Positiv-Rate aufweist. Unsere gemessene Falsch-Positiv-Rate liegt bei 1 zu 10.000 über alle Domänen hinweg und ist in der Praxis oft noch niedriger. Wir kalibrieren und optimieren den Schwellenwert so, dass unsere Falsch-Positiv-Rate etwa ein Zehntel unserer Falsch-Negativ-Rate beträgt, wobei wir Falsch-Positive viel ernster nehmen als Falsch-Negative. Abgesehen davon glauben wir jedoch nicht, dass dies ein unvermeidbarer „Kompromiss“ ist – wir glauben, dass wir Modelle mit sowohl niedrigen Falsch-Positiv- als auch Falsch-Negativ-Raten trainieren können, und deshalb führen wir Benchmarks auf beiden Seiten durch!

Das haben wir herausgefunden.

Modell	Genauigkeit	Proben
GPT-5	99.81%	3668/3675
GPT-5-Chat-Neueste	99.97%	3673/3674
GPT-5-Mini	99.92%	3651/3654
GPT-5-Nano	99.97%	3667/3668
GPT-OSS-120b	100.00%	1709/1709
GPT-OSS-20b	99.74%	2287/2293

Erkennt Pangram GPT-5?

Nach den ersten Testläufen, die wir heute durchgeführt haben, stellt GPT-5 keine Gefahr für die Erkennungsfähigkeiten von Pangram dar. Dies ist von großer Bedeutung, da es bald zum Standardmodell in ChatGPT für alle Nutzer werden wird, auch für diejenigen, die die kostenlose Version nutzen. Auch wenn andere KI-Detektoren GPT-5 möglicherweise irgendwann erkennen werden, ist Pangram derzeit das einzige Tool, das sofort und zuverlässig funktioniert.

Probieren Sie den KI-Detektor von Pangram aus, um beliebige Texte auf GPT-5 und andere große Sprachmodelle zu überprüfen.

Bradley EmiCTO, Mitbegründer

Bradley ist KI-Forscher und Experte für die Entwicklung von Deep-Learning-Produkten in der Industrie. Zuletzt leitete er die Deep-Learning-Forschungsgruppe bei Absci, einem Unternehmen für generative KI in der Arzneimittelforschung, und war zuvor Mitglied des Kernteams für Computer Vision bei Tesla Autopilot.

Während seines Masterstudiums verfasste Bradley im Rahmen des Stanford Vision Lab mehrere Veröffentlichungen im Bereich der Deep-Learning-Forschung. Er hat einen Bachelor of Science in Physik und einen Master of Science in Künstlicher Intelligenz von der Stanford University. Neben KI interessiert er sich auch für Bildung und Philosophie und ist ein begeisterter Golfer.

Mehr von Bradley Emi

Weiterführende Literatur

Wir stellen vor: Pangram 3.2

Produktaktualisierungen

Wir stellen vor: Pangram 3.2

Wir stellen das neueste Pangram-Modell mit verbesserter Speicherfunktion vor!

Katherine Thai27. Februar 2026

Technischer Bericht zur hochpräzisen Erkennung von KI-generierten Texten

Produktaktualisierungen

Technischer Bericht zur hochpräzisen Erkennung von KI-generierten Texten

Bei Pangram Labs entwickeln wir das beste KI-Modell zur Texterkennung, um das Internet davor zu schützen, mit unechten, irreführenden und minderwertigen Inhalten überschwemmt zu werden.

Bradley Emi und Max Spero21. Februar 2024

Pangram ist der einzige KI-Detektor, der bei der Erkennung von KI-Inhalten besser abschneidet als menschliche Experten

Produktaktualisierungen

Pangram ist der einzige KI-Detektor, der bei der Erkennung von KI-Inhalten besser abschneidet als menschliche Experten

Wir freuen uns über die neuen Forschungsergebnisse von Jenna Russell, Marzena Karpinska und Mohit Iyyer, Forscher der University of Maryland und von Microsoft, die zeigen, dass „Pangram“ das beste System zur Erkennung künstlicher Intelligenz ist.

Bradley Emi29. Januar 2025

Pangrams Engagement für den Datenschutz

Produktaktualisierungen

Pangrams Engagement für den Datenschutz

Pangram hat kürzlich seine Datenschutzerklärung und seine Nutzungsbedingungen aktualisiert. Was bedeutet das für die Nutzer von Pangram?

Bradley Emi14. August 2025

Wie gut kann Pangram Schlussfolgerungsmodelle erkennen?

Produktaktualisierungen

Wie gut kann Pangram Schlussfolgerungsmodelle erkennen?

Erfahren Sie, wie sich die KI-Erkennung von Pangram bei Schlussfolgerungsmodellen wie der o3-Serie von OpenAI, Claude 4 und Gemini 2 schlägt. 5.

Bradley Emi16. Juli 2025

Eine unabhängige Studie belegt, dass Pangram der leistungsstärkste KI-Detektor ist

Produktaktualisierungen

Eine unabhängige Studie belegt, dass Pangram der leistungsstärkste KI-Detektor ist

Forscher der University of Houston, der UC Berkeley, der UC Irvine und des Start-ups Esperanto AI haben herausgefunden, dass Pangram unter einer Vielzahl kommerzieller und Open-Source-Methoden der zuverlässigste KI-Textdetektor ist.

Bradley Emi30. Oktober 2024

Abonnieren Sie unsere Updates unter

Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.

soc2

SOC2 TYP 2

Verifiziert durch AssuranceLab

© 2025 Pangram. Alle Rechte vorbehalten.

info@pangram.com

Treten Sie unserer Community bei

© 2025 Pangram. Alle Rechte vorbehalten.