Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Wenn Sie online nach der Funktionsweise von KI-Detektoren suchen, werden Sie in der Regel auf viele Quellen stoßen, die die Begriffe „Perplexität“ und „Burstiness“ verwenden. Was bedeuten diese Begriffe und warum eignen sie sich letztendlich nicht zur Erkennung von KI-generierten Inhalten? Heute möchte ich erläutern, was Perplexität und Burstiness sind und warum sie sich nicht zur Erkennung von KI-generierten Texten eignen. Wir werden auch darauf eingehen, warum sie nicht funktionieren und warum auf Perplexität und Burstiness basierende Detektoren fälschlicherweise die Unabhängigkeitserklärung als KI-generiert einstufen und warum diese Detektoren auch gegenüber Nicht-Muttersprachlern voreingenommen sind. Los geht's!
Wir beginnen mit einer ungenauen, nicht-technischen Definition von Perplexität, um einen allgemeinen Eindruck davon zu bekommen, was Perplexität ist und wie sie funktioniert. Für weitere Hintergrundinformationen zum Thema Perplexität fand ich diesen zweiminütigen Artikel sehr hilfreich.
Perplexität beschreibt, wie unerwartet oder überraschend jedes Wort in einem Text aus der Perspektive eines bestimmten Sprachmodells oder LLM ist.
Hier sind zum Beispiel zwei Sätze. Konzentrieren wir uns zur Veranschaulichung auf das letzte Wort jedes Satzes. Im ersten Beispiel hat das letzte Wort eine geringe Perplexität, während im zweiten Beispiel das letzte Wort eine hohe Perplexität aufweist.
Geringe Perplexität:
Zum Mittagessen habe ich heute eine Schüssel *Suppe* gegessen.
Hohe Verwirrung:
Heute habe ich zum Mittagessen eine Schüssel *Spinnen* gegessen.
Der Grund dafür, dass der zweite Satz eine hohe Verwirrung hervorruft, liegt darin, dass ein Sprachmodell in seinem Trainingsdatensatz nur sehr selten Beispiele dafür findet, dass Menschen Schüsseln mit Spinnen essen. Daher ist es für das Sprachmodell sehr überraschend, dass der Satz mit „Spinnen” endet und nicht mit etwas wie „Suppe”, „Sandwich” oder „Salat”.
Perplexität hat denselben Wortstamm wie das Wort „perplex“, was „verwirrt“ oder „verblüfft“ bedeutet. Es ist hilfreich, sich Perplexität als Verwirrung des Sprachmodells vorzustellen: Wenn es etwas sieht, das ihm unbekannt oder unerwartet ist, verglichen mit dem, was es in seinem Trainingsverfahren gelesen und aufgenommen hat, dann können wir uns vorstellen, dass das Sprachmodell durch die Vervollständigung verwirrt oder verwirrt wird.
Okay, super, und was ist mit Burstiness? Burstiness ist die Veränderung der Perplexität im Verlauf eines Dokuments. Wenn ein Dokument mit überraschenden Wörtern und Phrasen gespickt ist, würden wir sagen, dass es eine hohe Burstiness aufweist.
Leider sind die meisten kommerziellen Detektoren (abgesehen von Pangram) hinsichtlich ihrer Methodik nicht transparent, aber nach dem, was aus ihren Beschreibungen hervorgeht, wird menschlicher Text als komplexer und burstiger angesehen als KI-generierter Text, während KI-generierter Text eine geringere Wahrscheinlichkeit und geringere Burstigkeit aufweist.
Eine Visualisierung davon sehen wir unten! Ich habe das GPT-2-Modell von Huggingface heruntergeladen und die Perplexität aller Texte in zwei Dokumenten berechnet: einem Satz von Restaurantbewertungen, die von Menschen verfasst wurden, und einem Satz von KI-generierten Bewertungen. Anschließend habe ich die Texte mit geringer Perplexität blau und die Texte mit hoher Perplexität rot markiert.
Visualisierung der Komplexität im Vergleich zwischen KI und menschlichem Text
Wie Sie sehen können, ist der KI-generierte Text rundum tiefblau, was auf einheitlich niedrige Perplexitätswerte hindeutet. Der von Menschen generierte Text ist größtenteils blau, weist jedoch rote Spitzen auf. Das würden wir als hohe Burstiness bezeichnen.
Es ist diese Idee, die Detektoren für Verwirrung und Ausbrüche inspiriert. Nicht nur einige der frühesten kommerziellen KI-Detektoren basieren auf dieser Idee, sondern sie hat auch einige wissenschaftliche Veröffentlichungen wie DetectGPT und Binoculars inspiriert.
Um ganz ehrlich zu sein, funktionieren diese Detektoren für Verwirrung und Unruhe manchmal tatsächlich! Wir glauben jedoch nicht, dass sie in Situationen mit hohem Risiko, in denen Ungenauigkeiten vermieden werden müssen, zuverlässig funktionieren können, beispielsweise im Klassenzimmer, wo eine falsche positive KI-Erkennung das Vertrauen zwischen Lehrer und Schüler untergraben oder, schlimmer noch, zu ungenauen Beweisen in einem Rechtsstreit führen kann.
Für diejenigen, die mit der Erstellung von LLMs nicht vertraut sind: Bevor LLMs bereitgestellt und als Chatbots verwendet werden können, müssen sie zunächst einen Prozess durchlaufen, der als Training bezeichnet wird. Während des Trainings sieht das Sprachmodell Milliarden von Texten und lernt die zugrunde liegenden sprachlichen Muster dessen, was als „Trainingssatz” bezeichnet wird.
Die genauen mechanischen Details des Trainingsverfahrens würden den Rahmen dieses Blogbeitrags sprengen, aber ein entscheidendes Detail ist, dass das LLM im Optimierungsprozess direkt dazu angeregt wird, die Perplexität seiner Trainingssatzdokumente zu minimieren! Mit anderen Worten: Das Modell lernt im Laufe der Zeit, dass die Textteile, die es im Trainingsverfahren wiederholt sieht, so wenig Perplexität wie möglich aufweisen sollten.
Warum ist das ein Problem?
Da das Modell darauf ausgelegt ist, die Dokumente seines Trainingssatzes mit geringer Perplexität zu versehen, stufen Perplexitäts- und Burstiness-Detektoren gängige Dokumente des Trainingssatzes als KI ein, selbst wenn diese Dokumente tatsächlich von Menschen verfasst wurden!
Aus diesem Grund stufen KI-Detektoren, die auf Perplexität basieren, die Unabhängigkeitserklärung als KI-generiert ein: Da es sich bei der Unabhängigkeitserklärung um ein berühmtes historisches Dokument handelt, das in unzähligen Lehrbüchern und Internetartikeln im gesamten Web reproduziert wurde, taucht es in KI-Trainingsdatensätzen sehr häufig auf. Und da der Text bei jedem Auftreten während des Trainings genau derselbe ist, kann sich das Modell merken, was die Unabhängigkeitserklärung ist, wenn es sie sieht, und dann automatisch allen Tokens eine sehr niedrige Perplexität zuweisen, was wiederum auch die Burstiness sehr niedrig macht.
Ich habe die gleiche Visualisierung wie oben für die Unabhängigkeitserklärung durchgeführt – und wir sehen dieselbe KI-Signatur: eine durchgehend tiefe, einheitliche blaue Farbe, die darauf hinweist, dass jedes Wort eine geringe Perplexität aufweist. Aus der Perspektive eines auf Perplexität und Burstiness basierenden Detektors ist die Unabhängigkeitserklärung von KI-generierten Inhalten nicht zu unterscheiden.
Interessanterweise fällt auf, dass der erste Satz der Unabhängigkeitserklärung noch tiefer blau und weniger verwirrend ist als der Rest. Dies liegt daran, dass der erste Satz bei weitem der am häufigsten reproduzierte Teil des Textes ist und im GPT-2-Trainingssatz am häufigsten vorkommt.
Visualisierung der Komplexität der Unabhängigkeitserklärung
Ebenso stellen wir fest, dass andere gängige Quellen für LLM-Trainingsdaten ebenfalls erhöhte Falsch-Positiv-Raten bei Perplexitäts- und Burstiness-Detektoren aufweisen. Wikipedia ist aufgrund seiner hohen Qualität und seiner uneingeschränkten Lizenz ein sehr gängiger Trainingsdatensatz: Daher wird es extrem häufig fälschlicherweise als KI-generiert vorhergesagt, da die Sprachmodelle direkt darauf optimiert sind, die Perplexität bei Wikipedia-Artikeln zu reduzieren.
Dieses Problem verschärft sich mit der Weiterentwicklung und dem Fortschritt der KI, da die neuesten Sprachmodelle extrem datenhungrig sind: Die Crawler von OpenAI, Google und Anthropic durchforsten gerade in diesem Moment das Internet und sammeln weiterhin Daten für das Training von Sprachmodellen. Sollten sich Verlage und Website-Betreiber Sorgen machen, dass ihre Inhalte in Zukunft fälschlicherweise als KI-generiert eingestuft werden könnten, wenn sie diesen Crawlern erlauben, ihre Website für das Training von LLM zu durchsuchen? Sollten Unternehmen, die eine Lizenzierung ihrer Daten an OpenAI in Betracht ziehen, das Risiko abwägen, dass diese Daten ebenfalls fälschlicherweise als KI eingestuft werden, sobald die LLMs sie aufgenommen haben? Wir halten dies für einen völlig inakzeptablen Fehler, der sich mit der Zeit noch verschlimmert.
Ein weiteres Problem bei der Verwendung von Perplexität und Burstiness als Metriken für die Erkennung besteht darin, dass sie relativ zu einem bestimmten Sprachmodell sind. Was beispielsweise für GPT zu erwarten ist, muss für Claude nicht unbedingt gelten. Und wenn neue Modelle auf den Markt kommen, ist auch ihre Perplexität unterschiedlich.
Sogenannte „Black-Box“-Detektoren, die auf Perplexität basieren, müssen ein Sprachmodell auswählen, um die tatsächliche Perplexität zu messen. Wenn sich jedoch die Perplexität dieses Sprachmodells von der Perplexität des Generators unterscheidet, erhält man äußerst ungenaue Ergebnisse, und dieses Problem verschärft sich mit der Veröffentlichung neuer Modelle noch weiter.
Anbieter von Closed-Source-Modellen geben nicht immer die Wahrscheinlichkeiten der einzelnen Token an, sodass Sie die Perplexität für Closed-Source-Modelle wie ChatGPT, Gemini und Claude nicht einmal berechnen können. Im besten Fall können Sie ein Open-Source-Modell zur Messung der Perplexität verwenden, aber dabei treten dieselben Probleme wie bei Nachteil 2 auf.
Es hat sich die Meinung verbreitet, dass KI-Erkennung gegenüber Nicht-Muttersprachlern voreingenommen ist, was durch eine Studie der Stanford University aus dem Jahr 2023 über 91 TOEFL-Aufsätze gestützt wird. Während Pangram nicht-englische Texte umfassend benchmarked und in unseren Trainingssatz integriert, damit das Modell sie erkennen und detektieren kann, weisen auf Perplexität basierende Detektoren tatsächlich eine erhöhte Falsch-Positiv-Rate bei nicht-englischen Texten auf.
Der Grund dafür ist, dass Texte, die von Englischlernenden verfasst werden, im Allgemeinen eine geringere Komplexität und weniger Sprunghaftigkeit aufweisen. Wir glauben, dass dies kein Zufall ist: Dies liegt daran, dass während des Sprachlernprozesses der Wortschatz der Lernenden deutlich begrenzter ist und sie auch nicht in der Lage sind, komplexe Satzstrukturen zu bilden, die für ein Sprachmodell ungewöhnlich oder sehr überraschend wären. Wir sind der Meinung, dass das Erlernen einer hochkomplexen, burstigen Schreibweise, die dennoch sprachlich korrekt ist, eine fortgeschrittene Sprachkompetenz ist, die aus der Erfahrung mit der Sprache resultiert.
Nicht-Muttersprachler des Englischen und, wie wir glauben, auch neurodiverse Studierende oder Studierende mit Behinderungen sind anfälliger dafür, von KI-Detektoren, die auf Verwirrung basieren, erfasst zu werden.
Was wir für den größten Nachteil von auf Perplexität basierenden Detektoren halten und warum wir bei Pangram stattdessen einen auf Deep Learning basierenden Ansatz gewählt haben, ist, dass diese auf Perplexität basierenden Detektoren sich nicht mit Daten und Rechenleistung selbst verbessern können.
Was bedeutet das? Je mehr Erfahrung Pangram durch unseren aktiven Lernalgorithmus mit menschlichen Texten sammelt, desto besser wird es. Auf diese Weise haben wir unsere Falsch-Positiv-Rate von 2 % auf 1 %, dann auf 0,1 % und nun auf 0,01 % gesenkt. Perplexitätsbasierte Detektoren können sich durch das Betrachten weiterer Daten nicht verbessern.
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature ist eine Abhandlung, die sich mit der lokalen Perplexitätslandschaft befasst, um zwischen menschlichen und KI-Texten zu unterscheiden, anstatt absolute Perplexitätswerte zu verwenden.
LLMs mit Fernglas entdecken: Zero-Shot-Erkennung maschinell generierter Texte nutzt eine neuartige Metrik namens „Cross-Perplexity“, um die grundlegende Perplexity-Erkennung zu verbessern.
Das technische Whitepaper von Pangram befasst sich eingehender mit unserer alternativen Lösung zur Erkennung von KI-generierten Texten auf der Grundlage von Deep Active Learning.
Es besteht ein großer Unterschied zwischen der Berechnung einer Statistik, die mit KI-generierten Texten korreliert, und der Entwicklung eines produktionsreifen Systems, das KI-generierte Texte zuverlässig erkennen kann. Perplexitätsbasierte Detektoren erfassen zwar einen wichtigen Aspekt dessen, was menschliche Texte menschlich und KI-Texte KI macht, aber aus den in diesem Artikel beschriebenen Gründen kann man einen perplexitätsbasierten Detektor nicht verwenden, um KI-generierte Texte zuverlässig zu erkennen und gleichzeitig eine für Produktionsanwendungen ausreichend niedrige Falsch-Positiv-Rate aufrechtzuerhalten.
In Bereichen wie dem Bildungswesen, in denen die Vermeidung von Fehlalarmen von entscheidender Bedeutung ist, hoffen wir, dass sich die Forschung stärker auf Deep-Learning-basierte Methoden konzentriert und sich von Perplexität und Burstiness oder metrikbasierten Methoden entfernt.
Wir hoffen, dass dies einen Einblick darin gibt, warum Pangram sich dafür entschieden hat, Perplexität und Burstiness nicht zur Erkennung von KI-generierten Texten zu verwenden, sondern sich stattdessen auf zuverlässige Methoden zu konzentrieren, die skalierbar sind.
