Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Wie genau ist die Pangram-KI-Erkennung bei ESL?

Bradley Emi
23. April 2025

Eine häufige Kritik an KI-Detektoren ist, dass sie gegenüber Nicht-Muttersprachlern voreingenommen sind. Texte, die von Nicht-Muttersprachlern verfasst wurden, werden als ESL (English as a Second Language) oder genauer gesagt als ELL (English Language Learners) bezeichnet. In früheren Artikeln haben wir erklärt, warum andere KI-Detektoren, die auf Perplexität und Burstiness basieren, für diesen Fehler anfällig sind.

Nicht-Muttersprachler verfügen nicht über den erforderlichen Wortschatz oder die Beherrschung komplexer englischer Satzkonstruktionen, um Texte mit hoher Burstiness zu verfassen. Daher sind frühere Versuche zur KI-Erkennung gescheitert: Oftmals wurden ESL-Texte fälschlicherweise als KI-generierte Texte eingestuft, was zu einer hohen Falsch-Positiv-Rate bei ESL führte.

Frühere Studien zur KI-Erkennung und ESL

Im Juli 2023 wurde eine bemerkenswerte Stanford-Studie von Weixin Liang, James Zou und anderen veröffentlicht, in der behauptet wird, dass GPT-Detektoren gegenüber nicht-muttersprachlichen englischen Autoren voreingenommen sind. Die Studie wurde zwar mit einer kleinen Stichprobe (nur 91 Aufsätze aus der TOEFL-Prüfung) durchgeführt und wies einige methodische Mängel auf (die Autoren beschlossen, mit GPT-4 modifizierte menschliche Texte beim Testen der Detektoren als „menschlich” zu kennzeichnen), insgesamt zeigten die Ergebnisse, dass die sieben getesteten KI-Detektoren (Pangram wurde in dieser Studie nicht getestet) eine starke Voreingenommenheit gegenüber ESL-Texten aufwiesen – über 60 % der menschlichen ESL-Textbeispiele wurden als KI markiert.

Eine aktuellere Studie vom August 2024 des ETS, einem Testdienstleister, der den GRE, einen standardisierten Test für die Zulassung zum Graduiertenstudium, durchführt, untersuchte ebenfalls in größerem Umfang rund 2.000 Schreibproben von Nicht-Muttersprachlern im GRE mit einfachen Machine-Learning-Detektoren, die sie selbst anhand handgefertigter Merkmale, darunter Perplexität, trainiert hatten. Sie fanden keine Verzerrung in ihren eigenen Detektoren gegenüber Nicht-Muttersprachlern, obwohl die Versuchsanordnung stark vereinfacht und konstruiert war und es wichtige Unterschiede zwischen dieser Studie und der realen Welt gibt. Darüber hinaus untersuchten sie nicht die kommerziellen Detektoren, die tatsächlich in der Praxis eingesetzt werden. Dennoch hebt die Studie einen interessanten Punkt hervor: Wenn Daten von Nicht-Muttersprachlern ausreichend im Trainingssatz vertreten sind, wird die resultierende Verzerrung ausreichend gemildert.

Pangrams Leistung bei ESL

Um die Falsch-Positiv-Rate von Pangram bei ESL-Daten zu messen, führen wir den KI-Detektor von Pangram auf vier öffentlichen ESL-Datensätzen aus (wir halten diese Datensätze während des Trainings zurück, damit es zu keinem Train-Test-Leakage kommt).

Die von uns untersuchten Datensätze umfassen:

Die Ergebnisse sind unten aufgeführt.

DatensatzFalsch-positiv-RateStichprobengröße
ELLIPSE0.00%3,907
ICNALE0.018%5,600
PELIC0.045%15,423
Liang TOEFL0%91
Insgesamt0.032%25,021

Die Gesamt-Falsch-Positiv-Rate von Pangram beträgt 0,032 % und liegt damit nicht wesentlich über unserer allgemeinen Falsch-Positiv-Rate von 0,01 %.

Pangram vs. TurnItIn

Wir vergleichen Pangram direkt mit TurnItIn, wobei wir dieselben Datensätze verwenden, die TurnItIn bei einer öffentlichen Bewertung seines KI-Schreibindikators verwendet hat.

Wir bewerten sowohl „L1“ (Nicht-ESL) als auch „L2“ (ESL) Englisch anhand derselben Datensätze wie TurnItIn. Da TurnItIn keine Dokumente mit mehr als 300 Wörtern bewertet, wenden wir vor der Bewertung dieselbe Filterung auf den Datensatz an.

DatensatzPangram FPRTurnItIn FPR
L2 Englisch 300+ Wörter0.02%1.4%
L1 Englisch 300+ Wörter0.00%1.3%

Wir stellen fest, dass Pangram bei ESL-Texten um zwei Größenordnungen genauer ist als TurnItIn und Pangram in dieser Studie keine Fehlalarme bei Texten in englischer Muttersprache erkennt.

Pangram vs. GPTZero

GPTZero meldet selbst eine Falsch-Positiv-Rate von 1,1 % bei der ursprünglichen Liang-TOEFL-Studie, obwohl 6,6 % des Liang-TOEFL-Datensatzes ebenfalls fälschlicherweise als „möglicher KI-Inhalt” klassifiziert werden.

Im Vergleich dazu meldet Pangram keinen einzigen Fehlalarm im Liang-TOEFL-Datensatz, und wir sind bei jedem Beispiel sehr zuversichtlich.

Wie mindert Pangram Fehlalarme beim Schreiben in ESL?

Bei Pangram nehmen wir unsere Leistung in Bezug auf nicht-muttersprachliches Englisch sehr ernst. Aus diesem Grund haben wir verschiedene Strategien eingesetzt, um Fehlalarme in unserem KI-Modell zur Erkennung von Texten zu minimieren.

Daten

Modelle für maschinelles Lernen funktionieren außerhalb ihrer Trainingsverteilung nicht gut, daher achten wir darauf, dass auch nicht-englische Texte in unserem Datensatz enthalten sind.

Wir belassen es jedoch nicht dabei. Während andere KI-Schreibdetektoren sich speziell auf studentische Arbeiten und akademische Aufsätze konzentrieren, trainieren wir unser Modell anhand eines breiten Spektrums an Texten. Andere KI-Schreibdetektoren, die nur mit Aufsätzen trainiert wurden, leiden oft darunter, dass informelles, umgangssprachliches Englisch im Trainingssatz unterrepräsentiert ist. Im Gegensatz dazu verwenden wir Texte aus sozialen Medien, Rezensionen und allgemeinen Internettexten, die oft informell sind und eher unvollkommene Texte repräsentieren, die dem Englisch von Nicht-Muttersprachlern oder Englischlernenden ähneln.

Wir achten auch darauf, Quellen einzubeziehen, die möglicherweise nicht-muttersprachliche englische Texte enthalten, auch wenn diese Quellen nicht speziell ESL-Datensätze sind. Beispielsweise sind englische Texte auf Websites mit ausländischen Domains eine hervorragende Quelle für nicht-muttersprachliche englische Texte.

Mehrsprachige Funktionen

Im Gegensatz zu anderen KI-Detektoren beschränken wir uns nicht nur auf die englische Sprache. Tatsächlich schränken wir die Sprache unseres Modells überhaupt nicht ein: Wir verwenden alle im Internet vorhandenen Sprachen, um unser Modell zu trainieren, damit es bei allen gängigen Sprachen gute Ergebnisse erzielt.

Wir haben bereits über unsere hervorragende Leistung im Bereich Mehrsprachigkeit berichtet und sind davon überzeugt, dass die Techniken, mit denen wir Pangram für andere Sprachen optimiert haben, sich auch sehr gut auf ESL übertragen lassen.

Wir können zwar nicht mit Sicherheit sagen, welche Mechanismen für die gute Generalisierung und Übertragung verantwortlich sind, vermuten jedoch, dass ESL fast als eine dem Englischen benachbarte Sprache betrachtet werden kann. Durch die Optimierung des Modells für eine gute Leistung in allen Sprachen kann das Modell nicht an sprachspezifische Stile, grammatikalische Konstruktionen oder Wortwahlen angepasst werden, die für die üblichen Ausdrucksweisen in einer bestimmten Sprache spezifisch sind. Indem wir menschliche Texte in allen Sprachen betrachten, bringen wir dem Modell bei, wie alle Menschen schreiben, nicht nur englische Muttersprachler. Dadurch ist es weniger wahrscheinlich, dass sich das Modell fälschlicherweise auf idiomatische Muster konzentriert, die von Muttersprachlern verwendet werden.

Aktives Lernen

Unser aktiver Lernansatz ist der Grund dafür, dass Pangram wesentlich genauer ist und deutlich weniger menschliche Texte fälschlicherweise als KI kennzeichnet als die Konkurrenz.

Durch den iterativen Wechsel zwischen Training und Hard Negative Mining finden wir die menschlichen Beispiele, die dem KI-generierten Text für das Training am ähnlichsten sind. Dieser Ansatz bringt nicht nur menschliche Beispiele zum Vorschein, die dem KI-generierten Text am ähnlichsten sind, was dem Modell hilft, die feinen Unterschiede zwischen ESL-Text und KI-generiertem Text zu verstehen, sondern hilft uns auch, ähnliche Beispiele wie ESL zu finden, die sich gut übertragen lassen und dem Modell helfen, insgesamt bessere Muster zu lernen.

Aufforderungsstrategien

Bei der Erstellung von KI-Beispielen, anhand derer das Modell lernen soll, versuchen wir, eine umfassende Vielfalt an Eingabeaufforderungen zu verwenden, damit das Modell auf verschiedene Schreibstile verallgemeinern kann. Beispielsweise fügen wir häufig Modifikatoren am Ende unserer Eingabeaufforderungen hinzu, wie „Schreibe diesen Aufsatz im Stil eines Gymnasiasten“ oder „Schreibe diesen Artikel im Stil eines Nicht-Muttersprachlers“.

Durch die Erstellung so vieler verschiedener Schreibstile lernt das Modell nicht nur die Standardweise, wie KI-Sprachmodelle schreiben, sondern auch die grundlegenden Muster, die KI-Texten zugrunde liegen.

Aus statistischer Sicht gestalten wir unsere synthetische Spiegel-Pipeline so, dass unser Modell gegenüber irrelevanten Merkmalen wie Thema, Schreibstil oder Tonfall invariant ist. Indem wir das Modell so anweisen, dass es den Merkmalen des menschlichen Textes entspricht, bauen wir die Invarianz ein, indem wir eine gleiche Anzahl von menschlichen und KI-Beispielen verwenden, die jedes Merkmal aufweisen.

Strenge Bewertung und Qualitätssicherung

Schließlich wenden wir einen äußerst umfassenden und strengen Bewertungs- und Qualitätssicherungsprozess an, bevor wir jedes neue Modell-Update freigeben.

Bei der Bewertung konzentrieren wir uns sowohl auf Qualität als auch auf Quantität. Der Liang-TOEFL-Datensatz enthält beispielsweise nur 91 Beispiele, sodass wir nur eine sehr grobe Schätzung unserer Falsch-Positiv-Rate bei ESL erhalten würden, wenn wir nur den Liang-TOEFL-Datensatz verwenden würden. Wenn wir nur ein einziges Beispiel falsch hätten, würden wir eine Falsch-Positiv-Rate von 1,1 % melden, sodass wir nicht in der Lage wären, den Unterschied zwischen Modellen zu erkennen, die tatsächlich eine echte FPR von unter 1 % haben.

Da wir eine Falsch-Positiv-Rate von deutlich unter 1 % anstreben (unsere Ziel-Falsch-Positiv-Rate liegt zwischen 1 zu 10.000 und 1 zu 100.000), müssen wir Millionen von Beispielen messen, um eine Genauigkeit auf diesem Niveau bestätigen zu können.

Eine groß angelegte Bewertung hilft uns auch dabei, ein besseres Gespür für die Fehlermodi unseres Modells zu entwickeln und diese im Laufe der Zeit zu korrigieren, indem wir bessere Daten beschaffen und bessere algorithmische Strategien entwickeln, die speziell auf unsere Fehlerfälle ausgerichtet sind.

Kann man KI-Detektoren bei ESL vertrauen?

Aufgrund unserer Messungen, detaillierten Auswertungsergebnisse und erklärbaren Minderungsstrategien sind wir davon überzeugt, dass Pangram für Nicht-Muttersprachler ausreichend genau ist, um im Bildungsbereich eingesetzt zu werden.

Ein ausreichend unvoreingenommener KI-Detektor reicht jedoch nicht aus, um alle Formen von Voreingenommenheit im akademischen Integritätsprozess zu verhindern. Pädagogen sollten sich bewusst sein, dass Voreingenommenheit auf unbewusste Weise zum Vorschein kommen kann. Wenn ein Pädagoge beispielsweise eher dazu neigt, einen KI-Detektor bei Einsendungen von Nicht-Muttersprachlern einzusetzen, weil er unbewusst vermutet, dass ESL-Studenten weniger ehrlich sind, dann ist das eine Form von Voreingenommenheit.

Darüber hinaus müssen Lehrkräfte sich bewusst sein, dass Nicht-Muttersprachler im akademischen Bereich gegenüber ihren englischsprachigen Kommilitonen mit inhärenten Nachteilen konfrontiert sind. ESL-Studierende nutzen eher externe Tools wie ChatGPT, um ihre Schreibfähigkeiten zu verbessern, was bei ausreichender Nutzung von KI-Erkennungssoftware auffällt. Aus diesem Grund empfehlen wir die Perkins AI Assessment Scale, um eine klare Kommunikation mit den Studierenden darüber zu ermöglichen, welche Art von KI-Unterstützung erlaubt ist und welche nicht.

Schließlich wissen wir, dass Schüler betrügen, wenn sie unter Stress und Druck stehen, sich insbesondere im Vergleich zu ihren Mitschülern als wenig leistungsfähig empfinden und glauben, dass der Einsatz von Hilfsmitteln zum Betrügen der einzige Weg ist, um erfolgreich zu sein. Wir ermutigen Pädagogen, diese Probleme proaktiv anzugehen, indem sie diese Schüler unterstützen, klar kommunizieren, welche Art von Hilfe verfügbar und erlaubt ist, und möglicherweise Bewertungsstrategien überdenken, die von Schülern, die bereits benachteiligt in den Unterricht kommen, keine perfekten Englischkenntnisse erwarten.

Pangram sollte als Instrument zur Förderung der akademischen Integrität eingesetzt werden, damit Pädagogen verstehen, wie sie das Lernen ihrer Schüler am besten unterstützen können.

Wenn Sie mehr über unsere Forschung und die Maßnahmen zur Verringerung von Verzerrungen in unserer KI-Erkennungssoftware erfahren möchten, kontaktieren Sie uns bitte unter info@pangram.com.

Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.