Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Pangram ist der einzige KI-Detektor, der menschliche Experten bei der Identifizierung von KI-Inhalten übertrifft.

Bradley Emi
29. Januar 2025

Wir freuen uns über die neuen Forschungsergebnisse von Jenna Russell, Marzena Karpinksa und Mohit Iyyer, Mitarbeitern der University of Maryland und Microsoft, die zeigen, dass Pangram das beste KI-Erkennungssystem und das einzige System ist, das geschulte menschliche Experten bei der Erkennung von KI-generierten Inhalten übertreffen kann. Lesen Sie hier den vollständigen Artikel.

Tweet von Jenna Russell

Neben der Untersuchung der Wirksamkeit automatisierter KI-Detektoren befassen sich die Forscher auch damit, wie geschulte menschliche Experten Signale erkennen, anhand derer sie die verräterischen Anzeichen von KI-generierten Inhalten identifizieren können. Wir glauben, dass diese Forschung einen großen Fortschritt für die Erklärbarkeit und Interpretierbarkeit bei der KI-Erkennung darstellt, und freuen uns darauf, diesen Forschungsansatz weiter zu verfolgen.

In diesem Blogbeitrag erläutern wir die wichtigsten Ergebnisse der Studie und was sie für die weitere Entwicklung der LLM-Erkennung bedeuten.

Menschen zu KI-Detektoren ausbilden

Wir haben bereits darüber berichtet, wie man KI-Texte erkennt und wie der Human Baseline Test funktioniert. Außerdem haben wir beschrieben, wie wir damit wertvolle Erkenntnisse über KI-generierte Texte gewinnen, die uns bei der Entwicklung besserer Modelle helfen.

Normalerweise sind wir zu Beginn nicht besonders gut darin, KI-generierte Rezensionen, Essays, Blogbeiträge oder Nachrichten zu erkennen. Es dauert eine Weile, bis wir die verräterischen Anzeichen dafür erkennen, dass ein Text von ChatGPT oder einem anderen Sprachmodell generiert wurde. Als wir beispielsweise begannen, Rezensionen zu studieren, lernten wir mit der Zeit durch die Auswertung vieler Daten, dass ChatGPT Rezensionen gerne mit dem Satz „Ich hatte kürzlich das Vergnügen“ beginnt, oder als wir begannen, KI-generierte Science-Fiction-Geschichten zu lesen, stellten wir fest, dass diese häufig mit dem Satz „Im Jahr ...“ beginnen. Mit der Zeit verinnerlichen wir jedoch diese Muster und können sie erkennen.

Die Forscher fragten sich auch, ob Experten darin geschult werden können, KI-generierte Artikel auf die gleiche Weise zu erkennen. Sie schulten fünf Annotatoren auf Upwork darin, KI-generierte Inhalte zu erkennen, und verglichen ihre Fähigkeit, KI mit bloßem Auge zu erkennen, mit der von Nicht-Experten.

Obwohl wir einen Unterschied in der Fähigkeit dieser beiden Gruppen erwarten sollten, den von KI geschriebenen Text zu erkennen, stellten die Forscher eine erhebliche Diskrepanz fest. Nicht-Experten erzielen bei der Erkennung von KI-generiertem Text ähnliche Ergebnisse wie beim Zufallsprinzip, während Experten eine hohe Genauigkeit aufweisen (durchschnittlich über 90 % True-Positive-Rate).

Ein Abschnitt, den wir besonders interessant fanden, war der Abschnitt „Was sehen erfahrene Annotatoren, was Laien nicht sehen?“. Die Forscher baten die Teilnehmer zu erklären, warum sie glaubten, dass ein Text von einer KI generiert worden sei oder nicht, und analysierten anschließend die Kommentare der Teilnehmer.

Hier sind einige Analysen, die direkt aus dem Artikel stammen:

„Laien fixieren sich im Vergleich zu Experten oft fälschlicherweise auf bestimmte sprachliche Eigenschaften. Ein Beispiel dafür ist die Wortwahl, bei der Laien die Verwendung von „ausgefallenen“ oder anderweitig selten vorkommenden Wörtern als Zeichen für KI-generierten Text ansehen. Experten hingegen sind viel besser mit den genauen Wörtern und Phrasen vertraut, die von KI übermäßig verwendet werden (z. B. „Testament“, „entscheidend“). Laien glauben auch, dass menschliche Autoren eher grammatikalisch korrekte Sätze bilden und schreiben daher zusammenhängende Sätze der KI zu, aber das Gegenteil ist der Fall: Menschen verwenden eher als KI ungrammatische oder zusammenhängende Sätze. Schließlich schreiben Nicht-Experten jeden Text, der in einem neutralen Ton verfasst ist, der KI zu, was zu vielen Fehlalarmen führt, da auch formelle menschliche Texte oft einen neutralen Ton haben.” (Russell, Karpinska & Iyyer, 2025).

Im Anhang stellen die Autoren eine Liste mit „KI-Vokabeln“ zur Verfügung, die häufig von ChatGPT verwendet werden – eine Funktion, die wir kürzlich im Pangram-Dashboard veröffentlicht haben und die häufig verwendete KI-Ausdrücke hervorhebt!

Unserer Erfahrung nach verwenden KI-Systeme entgegen der weit verbreiteten Meinung, dass sie ein anspruchsvolles, „ausgefallenes” Vokabular nutzen, in der Praxis eher klischeehafte, metaphorische Ausdrücke, die oft keinen Sinn ergeben. Informell würden wir sagen, dass LLMs eher Menschen ähneln, die versuchen, intelligent zu klingen, aber in Wirklichkeit nur Phrasen verwenden, von denen sie glauben, dass sie sie intelligent erscheinen lassen.

Robustheit von KI-Detektoren gegenüber modernsten Modellen

Eine Frage, die uns bei Pangram häufig gestellt wird, lautet: Wie halten Sie mit den modernsten Modellen Schritt? Wenn die Sprachmodelle besser werden, bedeutet das dann, dass Pangram nicht mehr funktionieren wird? Ist es ein Katz-und-Maus-Spiel, bei dem uns führende Labore wie OpenAI übertrumpfen werden?

Die Forscher stellten sich diese Frage ebenfalls und untersuchten die Leistungsfähigkeit verschiedener KI-Erkennungsmethoden im Vergleich zu OpenAI's o1-pro, dem bislang fortschrittlichsten Modell.

Die Forscher fanden heraus, dass Pangram bei der Erkennung von o1-pro-Ausgaben zu 100 % genau ist, und wir sind immer noch zu 96,7 % genau bei der Erkennung von „humanisierten” o1-pro-Ausgaben (auf die wir gleich noch zu sprechen kommen)! Im Vergleich dazu erreicht kein anderer automatischer Detektor auch nur 76,7 % bei Basis-o1-pro-Ausgaben.

Wie kann Pangram solche Verallgemeinerungen vornehmen? Schließlich hatten wir zum Zeitpunkt der Studie noch nicht einmal o1-pro-Daten in unserem Trainingssatz.

Wie alle Deep-Learning-Modelle glauben wir an die Kraft von Skalierbarkeit und Rechenleistung. Zunächst beginnen wir mit einem leistungsstarken Basismodell, das wie die LLMs selbst auf einem riesigen Trainingskorpus vortrainiert wurde. Zweitens haben wir eine Datenpipeline aufgebaut, die auf Skalierbarkeit ausgelegt ist. Pangram ist in der Lage, anhand seines Trainingskorpus von 100 Millionen von Menschen verfassten Dokumenten subtile Muster zu erkennen .
Wir erstellen nicht nur einen Datensatz für Aufsätze, Nachrichten oder Rezensionen: Wir versuchen, ein möglichst breites Netz aller existierenden, von Menschen verfassten Daten zu erschließen, damit das Modell aus den hochwertigsten und vielfältigsten Daten lernen und sich mit allen Arten menschlicher Texte vertraut machen kann. Wir haben festgestellt, dass dieser allgemeine Ansatz zur KI-Erkennung viel besser funktioniert als der spezialisierte Ansatz, für jeden Textbereich ein eigenes Modell zu erstellen.

Ergänzend zu unserem extrem großen, hochwertigen menschlichen Datensatz verfügen wir über eine Pipeline für synthetische Daten und einen auf aktivem Lernen basierenden Suchalgorithmus. Um die KI-Daten für unseren Algorithmus zu beschaffen, verwenden wir eine umfassende Bibliothek mit Prompts und alle wichtigen Open- und Closed-Source-KI-Modelle, um synthetische Daten zu generieren. Wir verwenden synthetische Spiegel-Prompts, über die wir in unserem technischen Bericht geschrieben haben, und Hard Negative Mining, das nach den Beispielen in unserem Datenpool mit den höchsten Fehlern sucht und KI-Beispiele erstellt, die den menschlichen Beispielen sehr ähnlich sehen, und das Modell so lange neu trainiert, bis wir keine Fehler mehr sehen. Auf diese Weise können wir die Falsch-Positiv- und Falsch-Negativ-Raten unseres Modells sehr effizient auf Null senken.

Kurz gesagt, unsere Verallgemeinerung basiert auf dem Umfang unserer Vorab-Trainingsdaten, der Vielfalt der für die Generierung synthetischer Daten verwendeten Prompts und LLMs sowie der Dateneffizienz unseres Ansatzes des aktiven Lernens und des Hard Negative Mining.

Darüber hinaus streben wir nicht nur eine hervorragende Out-of-Distribution-Leistung an, sondern möchten auch sicherstellen, dass möglichst viele der gängigen LLMs so in-distribution wie möglich sind. Daher haben wir eine robuste automatisierte Pipeline aufgebaut, um Daten aus den neuesten Modellen zu beziehen, sodass wir mit dem Training neuer LLMs beginnen können, sobald diese veröffentlicht werden, und auf dem neuesten Stand bleiben. Wir sind der Meinung, dass es sich nicht um einen Kompromiss zwischen der Leistungsausgewogenheit verschiedener Modelle handelt: Wir stellen fest, dass sich die Generalisierung des Modells jedes Mal verbessert, wenn wir ein neues LLM in den Trainingssatz aufnehmen.

Mit unserem derzeitigen System stellen wir nicht fest, dass die Modelle mit ihrer Verbesserung schwieriger zu erkennen sind. In vielen Fällen ist das Modell der nächsten Generation sogar leichter zu erkennen. So haben wir beispielsweise festgestellt, dass wir Claude 3 bei seiner Veröffentlichung genauer erkennen konnten als Claude 2.

Paraphrasierer- und Humanisierer-Angriffe

In unserer aktuellen Blogpost-Reihe haben wir beschrieben, was ein KI-Humanizer ist, und ein Modell mit deutlich verbesserter Leistung für humanisierte KI-Texte vorgestellt. Wir freuen uns, dass bereits ein Dritter unsere Behauptungen mit einem Datensatz humanisierter o1-pro-Artikel bestätigt hat.

Bei humanisiertem o1-Pro-Text erreichen wir eine Genauigkeit von 96,7 %, während das nächstbeste automatisierte Modell nur 46,7 % des humanisierten Textes erkennen kann.

Wir sind auch zu 100 % genau bei GPT-4o-Texten, die Satz für Satz umformuliert wurden.

Schlussfolgerung

Wir freuen uns sehr über die hervorragende Leistung von Pangram in einer unabhängigen Studie zu KI-Erkennungsfähigkeiten. Wir unterstützen akademische Forschung stets gerne und bieten allen Wissenschaftlern, die unseren Detektor untersuchen möchten, freien Zugang.

Neben dem Benchmarking der Leistung automatisierter Detektoren freuen wir uns über Forschungsarbeiten, die sich auch mit der Erklärbarkeit und Interpretierbarkeit der KI-Erkennung befassen: nicht nur, ob etwas mit KI geschrieben wurde, sondern auch warum. Wir freuen uns darauf, weiter darüber zu schreiben, wie diese Ergebnisse Lehrern und Pädagogen helfen können, KI-generierte Texte mit bloßem Auge zu erkennen, und wie wir diese Forschungsergebnisse in verständlichere automatisierte Erkennungswerkzeuge einfließen lassen wollen.

Weitere Informationen finden Sie auf unserer Website pangram.com oder kontaktieren Sie uns unter info@pangram.com.

Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.