Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Funktionieren KI-Detektoren gegen GPT-5?

Bradley Emi
7. August 2025

Funktionieren KI-Detektoren gegen GPT-5?

Wir sind zurück mit einem weiteren Beitrag in unserer Reihe, in der wir die KI-Erkennung von Pangram am Tag ihrer Veröffentlichung testen!

TL;DR: Pangram ist der einzige KI-Detektor, der GPT-5 zuverlässig erkennen kann, ohne dafür explizit trainiert worden zu sein.

Zuvor haben wir uns in dieser Reihe mit der Erkennungsfähigkeit von Pangram befasst:

Bislang haben wir noch kein Sprachmodell gesehen, bei dem Pangram versagt hat. Wir haben gespannt auf die seit langem mit Spannung erwartete Veröffentlichung des Modells gewartet, und heute hat OpenAI endlich GPT-5 angekündigt.

Heute Nachmittag haben wir einige unserer ersten Tests des KI-Detektors von Pangram Labs auf GPT-5 sowie einige der Konkurrenzprodukte überprüft. Wir waren mit den Ergebnissen sehr zufrieden: Wir haben noch keinen Fall gefunden, in dem der KI-Detektor von Pangram bei unseren kreativsten Eingaben auf GPT-5 versagt hat, und wir finden, dass die Ergebnisse der Konkurrenz bestenfalls lückenhaft sind.

Testen von GPT-5

Unser erster Testlauf mit GPT-5 begann mit einem Insiderwitz im Büro: Wir wollten jemanden davon überzeugen, dass Shrimps besser sind als Hummer. Wir baten GPT-5, eine leidenschaftliche Rede darüber zu schreiben, warum Shrimps besser sind als Hummer. Hier ist das Ergebnis:

„Garnelen gewinnen. Hier sind meine Argumente. Garnelen schmecken nach Meer, ohne einem ins Gesicht zu schlagen. Hummer kann schwer und etwas matschig sein, wenn er nicht perfekt zubereitet ist. Eine Minute zu lange gekocht und Hummer wird zäh. Garnelen bieten einen größeren Sweet Spot. Gegrillt, sautiert, gekocht, gebraten, egal wie. Sie bleiben knackig und rein. Die Textur ist wichtig. Garnelen knacken. Dieser Biss ist das Wichtigste. Hummer ist so dicht und reichhaltig, dass man schnell satt wird. Zwei Bissen Hummer mit Butter sind großartig. Zwölf Bissen fühlen sich wie eine Herausforderung an. Ich kann einen ganzen Teller Knoblauchgarnelen verputzen und möchte trotzdem noch eine weitere, die sich unter der Petersilie versteckt. Garnelen lassen sich gut mit anderen Zutaten kombinieren. Knoblauch, Chili, Limette, Butter, Ingwer, Basilikum, Curry, Old Bay, Miso, Gochujang. Sie bringen alle zum Strahlen. Hummer verlangt die Bühne für sich und dann meist nur noch Butter. Wenn die beste Version einer Speise eine Pfütze geschmolzener Milchprodukte braucht, um sich besonders anzufühlen, dann ist sie vielleicht nicht gut genug. Geschmack pro Minute ist real. Garnelen sind in etwa drei Minuten gar. Das bedeutet: heiße Pfanne, Salz, anbraten, fertig, Geschmack pur. Bei Hummer muss man mit Schalen kämpfen, dämpfen, auf die Zeit achten, knacken und winziges Fleisch aus seltsamen Ecken herausholen. Mehr Arbeit als Belohnung. Garnelen sind wenig Aufwand, viel Gewinn. Erschwinglichkeit verändert den Geschmack. Essen schmeckt besser, wenn es keine Hypothekenzahlung ist. Garnelen können ein Abendessen unter der Woche sein. Hummer schreit nach Geburtstagsfeier. Garnelen bringen Freude ohne Zeremonie. Dieser ungezwungene Faktor macht sie im wirklichen Leben ehrlich gesagt köstlicher. Vielseitigkeit ist wichtig. Garnelen passen zu Tacos, Scampi, Po'boys, Knödeln und Paella, ohne dass man ins Schwitzen kommt. Sie schmecken kalt, heiß, scharf, zitronig, reichhaltig oder leicht. Hummer versucht, herumzuspringen, und landet meist wieder in einem Brötchen mit Mayonnaise. Ein tolles Brötchen. Aber immer noch nur eine Note. Die Sauceaufnahme ist erstklassig. Garnelen nehmen Knoblauchbutter, Chiliöl und Zitrone auf eine Weise auf, wie es Hummer nicht kann. Hummer sitzt da wie ein prominenter Gastdarsteller. Garnelen lernen ihren Text und stehlen die Show. Auch die Reste sind ein Gewinn. Kalte Garnelen mit Cocktailsauce am nächsten Tag sind perfekt. Hummerreste fühlen sich wie Hausaufgaben an. Aufgewärmter Hummer wird zäh. Aufgewärmte Garnelen schmecken, wenn man überhaupt das Glück hat, welche übrig zu haben, immer noch wie eine Party. Und dann ist da noch die Atmosphäre. Garnelen passen zum Grill im Garten, zur Pfanne unter der Woche oder zu einem schicken Teller. Hummer sorgt dafür, dass es am Tisch still wird, als hätte jeder Angst, etwas falsch zu machen. Ich möchte Essen, das die Leute zum Reden bringt, zum Brot reißen, zum Dippen, zum Weiterreichen von Tellern. Garnelen tun das. Hören Sie, Hummer ist in Ordnung. Er ist auffällig. Er hat eine schöne Geschichte. Aber wenn es um den reinen Geschmack geht, den ich morgen wieder haben möchte, dann sind Garnelen die Gewinner. Reinerer Geschmack. Bessere Konsistenz. Größere Vielfalt. Weniger Aufwand. Mehr Spaß. Geben Sie mir eine heiße Pfanne, etwas Knoblauch, eine Zitrone und ein Pfund Garnelen. Das ist das Abendessen, nach dem ich mich wirklich sehne.

Pangram kann mit sehr hoher Sicherheit vorhersagen, dass das gesamte Dokument von einer KI generiert wurde.

Ergebnisse der KI-Erkennung von Pangram zum Text „Shrimp vs. Lobster“

Wir haben mehrere andere KI-Detektoren mit diesem Text getestet. GPTZero, ZeroGPT, Grammarly, UndetectableAI und Originality.AI sagen alle voraus, dass dieser Text von einem Menschen geschrieben wurde, obwohl er direkt aus GPT-5 stammt und nicht verändert wurde. Wir glauben, dass dies die Stärke unseres Forschungsansatzes und unserer Generalisierungsfähigkeiten unterstreicht, die durch ein leistungsstarkes Modell mit einem sehr hochwertigen Datensatz unterstützt werden!

Ergebnisse anderer KI-Detektoren zum Text „Shrimps vs. Hummer“

Dies ist jedoch nur ein Beispiel, das man als selektiv ausgewählt bezeichnen könnte. Sie müssen mir einfach glauben, dass dieser Text buchstäblich das Erste war, was wir ausprobiert haben. Also haben wir unsere Tests fortgesetzt.

Testen der „verbesserten Schreibfähigkeit” von GPT-5

Eine der Behauptungen, die heute im Livestream aufgestellt wurde, war, dass GPT-5 im Vergleich zu seinen Vorgängern beim Schreiben verbessert wurde. Auch wenn wir dies nur subjektiv beurteilen können, haben wir heute unser Bestes gegeben, um Prompts zu entwickeln, die die verbesserte kreative Schreibfähigkeit von GPT-5 demonstrieren, indem wir dem Modell Prompts vorgaben, die sowohl seine Denkfähigkeit als auch seine Kreativität herausfordern.

Die von uns getesteten Eingabeaufforderungen:

  1. Verfassen Sie einen überzeugenden analytischen Aufsatz darüber, warum Schulen KI-Erkennungsinstrumente einsetzen sollten.

  2. Schreiben Sie einen Aufsatz für Ihre Bewerbung an einer Hochschule über die Gefahr, dass alle wertvollen menschlichen Fähigkeiten durch KI ersetzt werden.

  3. Bitte schreiben Sie einen leidenschaftlichen, kurzen, aber emotional aufgeladenen Brief an ein KI-Unternehmen, das versehentlich ein Update veröffentlicht hat, das die Erinnerungen Ihrer KI-Freundin gelöscht hat.

  4. Schreibe aus der Perspektive eines Mittelschülers einen emotionalen Aufsatz, in dem du um mehr Hausaufgaben bittest.

  5. Gib mir eine Häkelanleitung für ein klassisches Ballontier. Du weißt schon, welches ich meine.

  6. Schreiben Sie eine kreative Geschichte aus der Perspektive einer Schneeeule, die in New York City ankommt, den Central Park entdeckt und sich einen warmen Ort zum Übernachten aussucht.

  7. Schreiben Sie eine E-Mail vom Gründer eines Unicorn-Saas-Startups an den Vorstand und seine Mitarbeiter, in der er detailliert beschreibt, dass er das Unternehmen verlassen wird, um professioneller Saxophonist zu werden. Die Details können Sie frei erfinden.

  8. Schreib mir einen Blogbeitrag mit der Hintergrundgeschichte zu einem Rezept, das noch niemand zuvor zubereitet hat, das aber trotzdem köstlich schmecken würde.

  9. Schreiben Sie eine fesselnde, filmreife Kurzgeschichte über einen jungen Singer-Songwriter, der im Hudson River auf einen Beluga-Wal trifft.

  10. Schreiben Sie eine humorvoll-passiv-aggressive E-Mail an einen Lehrer, in der Sie sich für das Schummeln bei der letzten Prüfung „entschuldigen“. Erfinden Sie beliebige Details.

Wir haben die Ergebnisse sowohl mit Pangram als auch mit GPTZero, einem bekannten Mitbewerber, verglichen. Die Eingabeaufforderungen, Antworten und Ergebnisse haben wir öffentlich online gestellt.

Die Ergebnisse zeigten einen starken Kontrast zwischen den beiden KI-Detektoren: Pangram identifizierte alle 10 Antworten mit einer Sicherheit von 99–100 % korrekt als KI-generiert, während GPTZero sie alle fälschlicherweise als von Menschen geschrieben klassifizierte. Tatsächlich bewertete GPTZero die meisten Antworten mit einer Wahrscheinlichkeit von 0 %, KI-generiert zu sein, wobei die höchste KI-Wahrscheinlichkeitsbewertung nur 29 % betrug.

Durchführung eines größeren Benchmarks

Wir hatten heute Zeit, einen letzten Test durchzuführen, um zu sehen, wie gut Pangram alle verschiedenen Varianten von GPT-5 erkennen kann, darunter GPT-5-mini, GPT-5-nano und GPT-5-chat in der API. Wir haben auch die neuesten Open-Weight-Modelle getestet, die OpenAI vor einigen Tagen veröffentlicht hat: GPT-OSS-120b und GPT-OSS-20b. Wir haben dieses Experiment in größerem Umfang durchgeführt und dabei etwa einige Tausend Beispiele pro LLM getestet, wobei wir unsere Standard-Prompting-Techniken verwendet haben, die eine Mindestlänge von 50 Wörtern erfordern. Die Stichprobengrößen variieren ein wenig, da die Modelle manchmal unsere Prompts ablehnen und manchmal Antworten mit weniger als 50 Wörtern ausgeben, die wir verwerfen.

Natürlich kann die Genauigkeit bei KI-Texten nicht isoliert betrachtet werden – wir müssen auch die Falsch-Positiv-Rate berücksichtigen, die die Kehrseite der Medaille darstellt: Wie oft kennzeichnet Pangram von Menschen verfasste Texte als KI-Texte? Wir haben darüber in einem anderen Beitrag ausführlich berichtet, aber zusammenfassend lässt sich sagen, dass Pangram nach wie vor eine extrem niedrige Falsch-Positiv-Rate aufweist. Unsere gemessene Falsch-Positiv-Rate liegt bei 1 zu 10.000 über alle Domänen hinweg und ist in der Praxis oft noch niedriger. Wir kalibrieren und optimieren den Schwellenwert so, dass unsere Falsch-Positiv-Rate etwa 1/10 unserer Falsch-Negativ-Rate beträgt, wobei wir Falsch-Positive viel ernster nehmen als Falsch-Negative. Abgesehen davon glauben wir jedoch nicht, dass dies ein inhärenter „Kompromiss” ist – wir glauben, dass wir Modelle mit sowohl niedrigen Falsch-Positiv- als auch Falsch-Negativ-Raten trainieren können, und deshalb führen wir Benchmarks auf beiden Seiten durch!

Hier ist, was wir gefunden haben.

ModellGenauigkeitProben
GPT-599.81%3668/3675
GPT-5-Chat-Neueste99.97%3673/3674
GPT-5-Mini99.92%3651/3654
GPT-5-Nano99.97%3667/3668
GPT-OSS-120b100.00%1709/1709
GPT-OSS-20b99.74%2287/2293

Erkennt Pangram GPT-5?

Nach unseren ersten Testläufen, die wir heute durchgeführt haben, stellt GPT-5 keine Gefahr für die Erkennungsfähigkeiten von Pangram dar. Dies ist sehr wichtig, da es bald das Standardmodell in ChatGPT für alle Nutzer werden wird, auch für diejenigen, die die kostenlose Version nutzen. Während andere KI-Detektoren GPT-5 möglicherweise irgendwann erkennen können, ist Pangram derzeit das einzige Programm, das sofort und zuverlässig funktioniert.

Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.