Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Eine unabhängige Studie zeigt, dass Pangram der robusteste KI-Detektor ist.

Bradley Emi
30. Oktober 2024

Eine unabhängige Studie zeigt, dass Pangram der robusteste KI-Detektor ist.

Forscher der University of Houston, der UC Berkeley, der UC Irvine und des Start-ups Esperanto AI haben herausgefunden, dass Pangram unter einer Vielzahl kommerzieller und Open-Source-Methoden der robusteste KI-Textdetektor ist. In der Veröffentlichung mit dem Titel „Esperanto: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination” untersuchten die Forscher die Auswirkungen von Sprachübersetzungen auf die Leistungsfähigkeit von KI-Detektoren.

Ausnutzen von KI-Detektoren durch den Einsatz von Übersetzungsprogrammen

Es ist ein bekannter Exploit der KI-Erkennung, dass das Übersetzen von KI-Text mit Google Translate in eine Fremdsprache und das anschließende Zurückübersetzen dieses Textes ins Englische einem Angreifer (oder einfach einem cleveren, zeitknappen Studenten) helfen kann, KI-Erkennungsprogramme zu umgehen. Bei Pangram bezeichnen wir diesen Angriff intern als „Doppelübersetzung“, und die Forscher nennen ihn „Rückübersetzung“. Hier ist ein Beispiel für eine doppelte Übersetzung. Wir bitten ChatGPT, einen Text für uns zu schreiben. Zuerst übersetzen wir den Text ins Japanische und dann zurück ins Englische. Wir stellen fest, dass sich einige Formulierungen geändert haben, da Übersetzungssoftware nicht perfekt ist und es oft mehrere Möglichkeiten gibt, dasselbe auszudrücken. Dies hat einen ähnlichen Effekt wie ein Paraphrasierungs-Tool wie Quillbot.

Von ChatGPT generierter Text Doppelt übersetzter Text Ein Beispiel für doppelte Übersetzung

Viele unserer Mitbewerber sind gegenüber diesem Exploit nicht robust. Oben sehen Sie einen der gängigsten KI-Detektoren von Mitbewerbern, die derzeit auf dem Markt verwendet werden. Wir sehen, dass das Modell KI direkt aus ChatGPT erkennen kann, aber nach einer doppelten Übersetzung nur noch 15 % KI vorhersagt.

GPTZero-Ergebnisse Ein beliebtes Konkurrenzprodukt klassifiziert den ursprünglichen KI-Text korrekt, stuft jedoch den doppelt übersetzten Text fälschlicherweise als von Menschen verfasst ein.

Pangram ist jedoch in der Lage, sowohl den ursprünglichen ChatGPT-Text als auch den doppelt übersetzten Text zu 99,99 % als KI zu erkennen. Wir können nicht nur vorhersagen, dass es sich um einen KI-generierten Text handelt, sondern auch mit Sicherheit sagen, dass GPT-4 die ursprüngliche Quelle war. Die Forscher machten sich daran, dieses Phänomen allgemein und in großem Maßstab zu untersuchen.

Pangram-Ergebnisse Pangram identifiziert sowohl den Originaltext als auch den doppelt übersetzten Text korrekt als KI-generiert.

Untersuchung der Auswirkungen der Rückübersetzung auf 720.000 Dokumente

Ein Beispiel reicht nicht aus, um zu beweisen, dass unser Detektor robust ist und andere nicht. In der Forschungsstudie haben die Forscher Tausende von Nachrichtenartikeln, Zusammenfassungen wissenschaftlicher Arbeiten, Reddit-Beiträgen und Produktbewertungen herangezogen, die nachweislich von Menschen verfasst wurden. Anschließend generierten sie mehrere KI-Beispiele mit GPT-3.5-Turbo, LLaMA 3, Mistral, Phi3 und Yi.

Insgesamt sind viele der Open-Source-Methoden und kommerziellen Detektoren bereits vor dem Einsatz eines Übersetzungsangriffs völlig unwirksam.

Zunächst wurde ein Schwellenwert festgelegt: Das bedeutet, dass ein Prozentsatz ausgewählt wurde, ab dem ein Dokument als KI eingestuft wird. Die meisten KI-Detektoren geben als Endergebnis einen Prozentsatz an. Um alle Detektoren auf eine vergleichbare Basis zu stellen, wurden die Schwellenwerte so gewählt, dass jedes Modell eine Falsch-Positiv-Rate von 1 % aufweist. Dann kann die Genauigkeit der Detektoren als Anteil der echten Positiven verglichen werden: Wie viele KI-Beispiele kann jeder Detektor bei diesem Schwellenwert erkennen?

Viele der anderen in der Arbeit untersuchten Methoden versagen vollständig bei der Erkennung von KI-Inhalten. Beispielsweise erreichen ZeroGPT und GPTZero in einigen Bereichen selbst bei keinem Schwellenwert eine Falsch-Positiv-Rate von 1 %, und viel zitierte wissenschaftliche Arbeiten wie RADAR und LLMDet weisen eine Genauigkeit von weniger als 50 % auf.

Die vorgeschlagene Metrik zur Leistungsbewertung besteht darin, die TPR bei 1 % FPR zu messen: Das bedeutet, dass bei einer konstanten Falsch-Positiv-Rate von 1 % ermittelt wird, wie oft das Modell KI-generierten Text erkennen kann. ZeroGPT erreicht in den meisten Bereichen selbst bei keinem Schwellenwert eine Falsch-Positiv-Rate von 1 %, und viel zitierte wissenschaftliche Arbeiten wie RADAR und LLMDet erreichen bei dieser Metrik deutlich weniger als 50 %.

Unterdessen erreicht Pangram eine Genauigkeit von über 96 % in allen Bereichen bei einer Falsch-Positiv-Rate von 1 % und sogar 85 % beim anspruchsvollen Datensatz mit Bewertungen, der nur 40 bis 50 Wörter lange Bewertungen enthält (was deutlich unter unserer empfohlenen Wortzahlgrenze für die Erkennung von KI im kommerziellen Bereich liegt).

Nach einem doppelten Übersetzungsangriff versagen viele der Detektoren vollständig. GPTZero beispielsweise fällt im Bereich Nachrichten von 97 % auf nur noch 42 % und im Bereich Rezensionen von 65 % auf 9 %. Die Forscher kommen zu dem Schluss: „Die Ergebnisse für GPTZero und ZeroGPT deuten auf eine mangelnde Robustheit gegenüber Rückübersetzungstechniken hin ... Pangram weist eine gewisse Robustheit auf, insbesondere bei längeren Texten.“

Die vollständigen Ergebnisse sind hier wiedergegeben. Pangram zeigt in allen Kategorien eine überragende Leistung.

Ergebnistabelle zum Vergleich von KI-Detektoren Ergebnistabelle aus der Esperanto-Veröffentlichung, die die Robustheit von Pangram zeigt

Schlussfolgerung

Diese Untersuchung untermauert unsere Behauptung, dass Pangram die einzige KI-Erkennungssoftware auf dem Markt ist, die zuverlässig genug ist, um in akademischen und kommerziellen Umgebungen eingesetzt zu werden, und die nicht durch Tricks wie doppelte Übersetzungen umgangen werden kann.

Das ist kein Zufall oder eine Laune des Schicksals. Die Robustheit von Pangram ist der Beweis für ein leistungsstarkes Modell, das zu verallgemeinern versteht und sich auf große Datensätze und unseren gezielten aktiven Lernansatz stützt. Zwar kann jeder ein KI-Erkennungswerkzeug entwickeln, das manchmal oder sogar meistens funktioniert, doch unser skalierbarer Ansatz ist der einzige Weg, um eine zuverlässige, konsistente Genauigkeit zu erreichen, die auch dann nicht völlig versagt, wenn der Text modifiziert oder verändert wird.

Wir arbeiten kontinuierlich daran, die Leistung und Robustheit unseres KI-Erkennungsmodells zu verbessern. Wir halten uns über die neuesten Forschungsergebnisse im Bereich des adversarial machine learning auf dem Laufenden und testen unser eigenes Modell ständig auf potenzielle Angriffe und Umgehungsmöglichkeiten.

Mehr zu diesem Thema folgt in Kürze!

Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.