Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Der Markt für KI-Erkennung besteht heute aus mehreren großen Akteuren. Vielleicht haben Sie schon von ihnen gehört: Pangram, GPTZero, Turnitin, ZeroGPT und andere.
Viele dieser Unternehmen aktualisieren regelmäßig ihre Modelle und veröffentlichen Zahlen zu ihrer Leistung. Vor kurzem hat GPTZero ein Sommer-Modell-Update veröffentlicht und neue Zahlen zur Leistung verschiedener neuer Modelle bekannt gegeben. In diesem Blogbeitrag vergleichen wir die Leistung des neuen Modells von GPTZero mit der KI-Erkennung von Pangram, einschließlich der neuesten GPT-5-Modelle.
| Modell | Pangram-Erkennungsrate | GPTZero-Erkennungsrate | Besserer Detektor |
|---|---|---|---|
| GPT-5 | 99.81% | 95.0% | Pangram |
| GPT-5-Chat-Neueste | 99.97% | Nicht getestet | Nicht zutreffend |
| GPT-5-Mini | 99.92% | 92.2% | Pangram |
| GPT-5-Nano | 99.97% | 96.1% | Pangram |
| GPT-OSS-120b | 100.00% | Nicht getestet | Nicht zutreffend |
| GPT-OSS-20b | 99.74% | Nicht getestet | Nicht zutreffend |
| GPT4.1 | 99.48% | 96.8% | Pangram |
| GPT4.1-Mini | 99.94% | 98.7% | Pangram |
| o3 | 99.86% | 89.9% | Pangram |
| o3-mini | 100.00% | 98.4% | Pangram |
| Gemini 2.5 Pro | 99.91% | 95.7% | Pangram |
| Gemini 2.5 Flash | 99.75% | 98.2% | Pangram |
| Claude Sonett 4 | 99.91% | 99.1% | Pangram |
Hinweis: GPTZero veröffentlicht seine internen Bewertungsdatensätze nicht öffentlich, daher stammen diese Zahlen nicht aus genau denselben Dokumenten. Darüber hinaus gibt GPTZero die Anzahl der getesteten Dokumente nicht bekannt, sodass wir auch die Menge nicht vergleichen können. Für die Leistungszahlen von Pangram haben wir jedoch Tausende von Dokumenten pro Modell sowie eine Vielzahl von Domänen und Prompt-Schemata ausgewertet, um den realen Einsatz zu simulieren.
Darüber hinaus beschränkt sich die Genauigkeit von Pangram nicht nur darauf, die meisten KI-Dokumente zu kennzeichnen. Pangram ist auch Marktführer bei der Aufrechterhaltung niedriger Falsch-Positiv-Raten. Es ist für uns eine wichtige Priorität, von Menschen verfasste Dokumente nicht als KI-generiert zu kennzeichnen. Nachstehend sind die Unterschiede zwischen den gemeldeten Falsch-Positiv-Raten für Pangram und GPTZero aufgeführt:
| Pangram | GPTZero | |
|---|---|---|
| Falsch-positiv-Rate (%) | 0.01% | 1% |
| Falsch-positiv-Rate (#) | ~1 von 10.000 Dokumenten | ~1 von 100 Dokumenten |
GPTZero-Blogbeitrag zur Falsch-Positiv-Rate
Hier sehen wir die Leistung von GPTZero mit einer Falsch-Positiv-Rate (FPR) von 1 %.
Pangram und GPTZero stehen auch in begutachteten Forschungsarbeiten zum Thema KI in direktem Wettbewerb zueinander. Dies kommt am besten in der aktuellen Studie der University of Maryland zum Ausdruck :„Personen, die ChatGPT häufig für Schreibaufgaben nutzen, sind präzise und zuverlässige Detektoren für KI-generierte Texte.“ Diese Studie untersuchte die Fähigkeit erfahrener menschlicher Annotatoren, den Unterschied zwischen von Menschen und von KI generierten Texten zu klassifizieren.
Im Rahmen der Studie wurden die menschlichen Annotatoren mit kommerziell erhältlichen und Open-Source-Detektoren verglichen. Pangram schnitt besser ab als jeder einzelne menschliche Detektor und auch besser als alle kommerziellen Alternativen, einschließlich GPTZero.
| GPT-4o | Claude | |
|---|---|---|
| Pangram | 100% | 100% |
| GPTZero | 100% | 97.6% |
| Kommentator 1 | 96.7% | 100% |
| Kommentator 2 | 96.7% | 100% |
| Kommentator 3 | 86.7% | 80% |
| Kommentator 4 | 90.0% | 96.7% |
| Annotator 5 | 93.3% | 93.3% |
Die Unterschiede zwischen dem Flaggschiffmodell von Pangram und GPTZero enden hier jedoch nicht. Beide Modelle sind „mehrsprachig“, d. h. sie können KI nicht nur in Englisch, sondern auch in anderen Sprachen erkennen. Pangram ist in allen 20 meistverwendeten Sprachen im Internet mehrsprachig. GPTZero unterstützt Englisch, Französisch und Spanisch. Hier sind die Sprachen, in denen jedes Modell getestet wurde:
| Sprache | Pangram-Falsch-Positiv-Rate (FPR) | GPTZero-Falsch-Positiv-Rate (FPR) | Pangram-KI-Erkennungsrate | GPTZero KI-Erkennungsrate |
|---|---|---|---|---|
| Spanisch | 0.00% | 5.6% | 100.0% | 96.4% |
| Französisch | 0.00% | 3.1% | 100.0% | 93.1% |
| Arabisch | 0.10% | Nicht getestet | 100.0% | Nicht getestet |
| Tschechisch | 0.00% | Nicht getestet | 99.89% | Nicht getestet |
| Deutsch | 0.00% | Nicht getestet | 99.68% | Nicht getestet |
| Griechisch | 0.00% | Nicht getestet | 99.79% | Nicht getestet |
| Persisch | 0.00% | Nicht getestet | 100.0% | Nicht getestet |
| Hindi | 0.00% | Nicht getestet | 99.58% | Nicht getestet |
| Ungarisch | 0.10% | Nicht getestet | 99.05% | Nicht getestet |
| Italienisch | 0.00% | Nicht getestet | 100.0% | Nicht getestet |
| Japanisch | 0.00% | Nicht getestet | 100.0% | Nicht getestet |
| Niederländisch | 0.10% | Nicht getestet | 100.0% | Nicht getestet |
| Polnisch | 0.00% | Nicht getestet | 100.0% | Nicht getestet |
| Portugiesisch | 0.00% | Nicht getestet | 100.0% | Nicht getestet |
| Rumänisch | 0.10% | Nicht getestet | 100.0% | Nicht getestet |
| Russisch | 0.00% | Nicht getestet | 100.0% | Nicht getestet |
| Schwedisch | 0.00% | Nicht getestet | 99.89% | Nicht getestet |
| Türkisch | 0.00% | Nicht getestet | 99.79% | Nicht getestet |
| Ukrainisch | 0.00% | Nicht getestet | 99.89% | Nicht getestet |
| Urdu | 0.00% | Nicht getestet | 98.84% | Nicht getestet |
| Vietnamesisch | 0.00% | Nicht getestet | 99.89% | Nicht getestet |
| Chinesisch | 0.00% | Nicht getestet | 99.89% | Nicht getestet |
Weitere Informationen zur Leistung von Pangram bei mehrsprachigen Texten finden Sie in diesem Blogbeitrag.
Darüber hinaus wurden beide Modelle unter besonderer Berücksichtigung der ESL-Leistung trainiert, da allgemein bekannt ist, dass KI-Detektoren gegenüber Nicht-Muttersprachlern voreingenommen sein können. Sowohl GPTZero als auch Pangram haben insbesondere Ergebnisse zu ESL-Texten veröffentlicht. Sehen Sie unten, wie sie im Vergleich abschneiden:
| Falsch-positiv-Rate | Stichprobengröße | |
|---|---|---|
| Pangram | 0.032% | 25,021 |
| GPTZero | 1.1% | 91 |
Weitere Informationen über Pangrams Ansatz für ESL-Texte finden Sie in diesem Blogbeitrag: https://www.pangram.com/blog/how-accurate-is-pangram-ai-detection-on-esl
Ein weiteres Anliegen für diejenigen, die sich für KI-Erkennung interessieren, ist die Leistung bei noch nicht veröffentlichten Modellen. Da der KI-Wettstreit weiter zunimmt, veröffentlichen große KI-Labore und kleine Start-ups regelmäßig wichtige Modelle. Es ist wichtig, dass eine KI-Erkennungslösung auch bei Modellen, die sie möglicherweise nicht direkt trainieren konnte, weiterhin genaue Ergebnisse liefert.
Die kürzlich erfolgte Veröffentlichung von GPT-5 bot eine großartige Gelegenheit, dies herauszufinden! Innerhalb weniger Stunden nach der Veröffentlichung des neuen Modells testete das Pangram-Team die Leistung von GPTZero und Pangram anhand verschiedener Arten von Eingabeaufforderungen. Hier sind die Ergebnisse:
| Pangram | GPTZero | |
|---|---|---|
| Dokument 1 | 100% | 2% |
| Dokument 2 | 100% | 0% |
| Dokument 3 | 100% | 0% |
| Dokument 4 | 100% | 0% |
| Dokument 5 | 100% | 9% |
| Dokument 6 | 99% | 0% |
| Dokument 7 | 100% | 0% |
| Dokument 8 | 100% | 0% |
| Dokument 9 | 100% | 29% |
| Dokument 10 | 100% | 0% |
| Dokument 11 | 100% | 10% |
Hinweis: GPTZero hat inzwischen ein Modell-Update veröffentlicht, das angeblich auf GPT-5 besser funktioniert! Weitere Details zu unserem ursprünglichen Vergleich finden Sie in diesem Blogbeitrag. Darüber hinaus empfehlen wir Nutzern, eigene Tests durchzuführen, um die Leistung zu einem bestimmten Zeitpunkt zu vergleichen.
Letztendlich ist Pangram weiterhin die robuste und zuverlässige Wahl für die Erkennung von KI-generierten Inhalten. Ganz gleich, ob Sie Lösungen für den Bildungsbereich, das Verlagswesen, die Moderation von Inhalten oder noch speziellere Anforderungen benötigen – wir bieten Ihnen eine genaue und faire KI-Erkennung. Erfahren Sie mehr in unserem Blog oder kontaktieren Sie uns unter info@pangram.com.
