Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Trainingsprozess für den KI-generierten Textklassifikator von Pangram Labs
Bei Pangram Labs entwickeln wir das beste KI-Modell zur Texterkennung, um das Internet vor einer Flut von unechten, irreführenden und minderwertigen Inhalten zu schützen. Wir glauben an eine Welt, die durch LLMs ermöglicht wird, in der Menschen mit den besten Werkzeugen ausgestattet sein müssen, um die Wahrheit zu erkennen, und wir möchten die richtige Technologie bereitstellen, um diesem Bedarf gerecht zu werden.
Pangram Labs hat einen leistungsstarken Klassifikator entwickelt, um KI-generierte Texte zu erkennen, die in Spam oder betrügerischen Inhalten vorkommen könnten. Inwiefern ist unser Modell besser als die Alternativen auf dem Markt? In diesem Blogbeitrag präsentieren wir eine umfassende Analyse der Leistungsfähigkeit unseres Modells, begleitet von unserem ersten öffentlichen technischen Whitepaper.
Dieser Blogbeitrag behandelt mehrere Themen:
Für einen tieferen Einblick in die technischen Details einschließlich der Methodik lesen Sie bitte unseren technischen Bericht über den Pangram AI-generierten Textklassifikator.
Wir haben ein Wettbewerbs-Benchmarking mit fast 2000 Dokumenten durchgeführt, um wichtige Genauigkeitsmetriken zu ermitteln, darunter die Gesamtgenauigkeit, falsch-positive Fälle und falsch-negative Fälle.
Our text classifier outperforms academic methods and shows significantly lower error rates in a comprehensive benchmark against other available AI text detection methods. Our model demonstrates 99.85% accuracy with 0.19% false positive rate across thousands of examples across ten different categories of writing and eight commonly used large language models. Other methods fail on more capable LLMs such as GPT-4 (<=75% accuracy) while Pangram Labs sustains 99-100% accuracy across all language models tested.
Gesamtgenauigkeitsvergleich
Große Sprachmodelle (LLMs) wie ChatGPT erlebten 2023 einen explosionsartigen Anstieg ihrer Popularität, als die KI-Fähigkeiten einen Wendepunkt erreichten. LLMs, die KI-Assistenten antreiben, konnten Fragen beantworten, Brainstorming betreiben, Inhalte schreiben und dabei überzeugend menschlich klingen. Dies hat zu einigen positiven Ergebnissen geführt – Informationen sind zugänglicher denn je und Assistenten können uns Zeit bei der Erledigung einfacher Aufgaben sparen. Allerdings kann nun jeder ohne großen Aufwand überzeugend menschlich klingende Texte verfassen – was auch seine Schattenseiten hat. Spammer können E-Mails schreiben, die schwerer zu filtern sind. Verkäufer auf Online-Marktplätzen können innerhalb von Minuten Tausende von authentisch wirkenden Bewertungen erstellen. Kriminelle können in den sozialen Medien mit Tausenden von LLM-gestützten Bots die öffentliche Meinung beeinflussen.
Leider können diese gesellschaftlichen Risiken auf LLM-Ebene nicht gemindert werden – Sprachmodelle können nicht unterscheiden, ob eine Anfrage legitim ist oder zu den Tausenden von Anfragen gehört, die von Spammern erstellt wurden. Aus diesem Grund benötigen wir Inhaltsfilter auf der Anwendungsebene, um menschliche Räume menschlich zu halten.
Wir haben viel Skepsis gegenüber dieser Art von Arbeit gehört. Dass das Problem unlösbar ist, dass sich gezeigt hat, dass KI-Detektoren „nicht funktionieren“ oder dass man sie einfach umgehen kann. Oder dass es, selbst wenn es jetzt möglich ist, nächstes Jahr schwieriger und bis zur Einführung der AGI unmöglich sein wird.
Unsere These ist ein wenig anders. Wir sind fest davon überzeugt, dass dieses Problem nicht nur gelöst werden kann, sondern auch gelöst werden muss. Es spielt keine Rolle, wie schwierig es ist, wie viele Stunden wir investieren müssen, um etwas zu entwickeln, das die Nutzer verwenden und dem sie vertrauen können. Ohne unsere Arbeit ist es nur eine Frage der Zeit, bis das Internet von KI-Spammern überrannt wird. Die menschlichen Stimmen werden vom Lärm übertönt werden.
Um sicherzustellen, dass das Problem gelöst wird, müssen wir den Schwierigkeitsgrad unserer Bewertungssätze kontinuierlich erhöhen. Frühe Bewertungen konnten leicht auf eine Genauigkeit von 100 % maximiert werden, aber es wurde schnell klar, dass dies nicht die Genauigkeit in der realen Welt widerspiegelte. Durch die Erstellung schwierigerer Bewertungen können wir unsere Verbesserungen objektiv messen. Wir sind bereits davon überzeugt, dass unser aktueller Benchmark etwas schwieriger ist als das, was Spammer in der realen Welt produzieren, und dieser Benchmark ist fast maximal ausgeschöpft. Wenn wir mit neuen Zahlen zurückkommen, könnte es so aussehen, als wären andere Methoden noch schlechter geworden, aber in Wirklichkeit werden wir mit einem schwierigeren Bewertungssatz zurückkommen, bei dem die leistungsfähigsten KIs an ihre Grenzen gebracht werden, um authentisch aussehende Texte zu erstellen, und unser Ziel ist es, diese weiterhin mit einer Genauigkeit von 99 % zu erkennen.
Das Problem wird nie vollständig gelöst werden können, aber wir müssen stetige Fortschritte erzielen, um nicht ins Hintertreffen zu geraten, da LLMs immer leistungsfähiger werden. Das ist es, wozu wir uns verpflichtet haben, und das werden wir bis zum Ende weiterverfolgen.
In unserem technischen Bericht haben wir Pangram Labs mit den beiden führenden KI-Erkennungs-Tools sowie einer hochmodernen akademischen Methode zur KI-Erkennung aus dem Jahr 2023 verglichen.
Wir vergleichen:
Unser Benchmark umfasst 1.976 Dokumente – die Hälfte davon wurde von Menschen verfasst, die andere Hälfte wurde von acht der beliebtesten LLMs generiert, darunter ChatGPT und GPT-4.
Gesamtgenauigkeitsvergleich
Eine kurze Erklärung, was diese Zahlen bedeuten:
Um die Falsch-Positiv-Rate konkret zu veranschaulichen: 9 % bedeutet, dass jedes elfte von Menschen verfasste Dokument als KI markiert wird. Eine Falsch-Positiv-Rate von 2 % bedeutet, dass jedes fünfzigste von Menschen verfasste Dokument als KI markiert wird. Und 0,67 % bedeutet, dass jedes 150. von Menschen verfasste Dokument als KI markiert wird.
Ebenso bedeutet eine Falsch-Negativ-Rate von 10 %, dass eines von zehn KI-Dokumenten unentdeckt bleibt, während eine Falsch-Negativ-Rate von 1,4 % bedeutet, dass eines von siebzig KI-Dokumenten unentdeckt bleibt.
Bedenken Sie die Auswirkungen dieser Ergebnisse. Ein Erkennungsmodell mit einer Falsch-Positiv-Rate von 9 % ist nicht vertrauenswürdig – andernfalls käme es zu zahlreichen falschen Anschuldigungen. Und ein Erkennungsmodell mit einer Falsch-Negativ-Rate von 10 % würde so viel KI-Spam durchlassen, dass die Nutzer bei jedem Angriff weiterhin mit Spam-Mails überschwemmt würden.
Unser Benchmark ist in zwei verschiedene Achsen unterteilt: Textdomäne und Ursprungs-LLM. „Textdomäne“ oder einfach „Domäne“ ist eine Bezeichnung für eine bestimmte Kategorie von Texten. Ein Aufsatz einer Mittelschüler liest sich beispielsweise ganz anders als eine wissenschaftliche Arbeit, die sich wiederum ganz anders liest als eine E-Mail. Durch die Aufteilung der Ergebnisse in verschiedene Domänen erhalten wir einen umfassenderen Überblick darüber, in welchen Bereichen wir gut abschneiden und wo wir unsere Bemühungen zur Verbesserung konzentrieren können.
Genauigkeit nach Textbereich
Die Ergebnisse zeigen, dass Pangram Labs GPTZero und Originality in allen zehn bewerteten Bereichen übertrifft.
Einer der Bereiche, E-Mail, ist ein besonders starkes Ergebnis, da Pangram Labs keine E-Mails in seine Trainingsdaten einbezieht. Unsere Leistung im Bereich E-Mail basiert ausschließlich auf dem Training eines robusten Modells, das sich auf die meisten Kategorien von Texten, die ein LLM produzieren kann, verallgemeinern lässt.
KI-Dokumente korrekt klassifiziert, nach Herkunft LLM
Die Aufschlüsselung nach Herkunfts-LLM erzählt eine andere Geschichte: Konkurrierende KI-Erkennungsmodelle schneiden bei weniger leistungsfähigen Open-Source-Modellen besser ab, bei ChatGPT (gpt-3.5-turbo) jedoch schlechter und haben bei GPT-4, dem leistungsfähigsten LLM von OpenAI, wirklich zu kämpfen. Wir haben mehrere Versionen der Modelle GPT 3.5 Turbo und GPT-4 evaluiert, da diese in der Praxis am häufigsten verwendet werden.
Wir haben festgestellt, dass wir das einzige Modell sind, das GPT-4-Texte zuverlässig erkennen kann, und dass wir auch bei allen anderen von uns getesteten Modellen besser abschneiden als die Konkurrenz.
Eine interessante Beobachtung ist, dass unsere Konkurrenz bei den Open-Source-Modellen deutlich besser abschneidet als die Closed-Source-Modelle GPT und Gemini. Wir vermuten, dass dies auf eine übermäßige Abhängigkeit von Perplexitäts- und Burstiness-Merkmalen zurückzuführen ist – diese Merkmale sind zwar wertvoll, aber Perplexität und Burstiness lassen sich nur bei einem Open-Source-Modell präzise berechnen: Bei Closed-Source-Modellen kann man nur eine ungefähre Schätzung vornehmen. Dies zeigt den Wert unseres Deep-Learning-basierten Ansatzes – er stützt sich nicht auf fragile Merkmale wie Perplexität und kann subtilere zugrunde liegende Muster erkennen.
Eine Frage, die uns oft gestellt wird, lautet: Was passiert, wenn ein neues Sprachmodell veröffentlicht wird? Muss man jedes neue Modell trainieren, um dessen Ergebnisse zu erkennen? Kurz gesagt: Nein. OpenAI hat in den vergangenen Wochen zwei neue Versionen seiner LLMs veröffentlicht. Ohne diese neuen LLMs überhaupt zu trainieren, haben wir unser Modell evaluiert und festgestellt, dass es immer noch recht gut funktioniert!
Diese neuen Versionen ähneln früheren Versionen, die von OpenAI veröffentlicht wurden. Die nächste Frage, die wir uns stellen, lautet daher: Wie schneiden wir bei völlig anderen Modellfamilien ab? Um dies zu beantworten, haben wir unser Modell anhand einer Reihe von Open-Source-Modellen evaluiert, die unser Klassifikator zuvor noch nie gesehen hatte.
Leistung durch Open-Source-LLM, die Pangram Labs während des Trainings nicht gesehen hat.
Ziemlich gut! Das liegt zum großen Teil daran, dass viele Open-Source-Modelle entweder auf der Llama-Familie basieren oder ähnliche Open-Source-Trainingssätze verwenden. Dadurch können wir jedoch sicher sein, dass wir generalisieren können, ohne jedes einzelne Open-Source-Modell trainieren zu müssen.
Vor diesem Hintergrund ist unsere Datenpipeline so aufgebaut, dass wir innerhalb weniger Stunden nach der Veröffentlichung einer LLM-API einen neuen Trainingssatz generieren können – wobei nur die API-Ratenbegrenzung einen Engpass darstellt. Wir sind uns bewusst, dass LLMs immer besser werden, und je näher wir der AGI kommen, desto wichtiger wird es, auf dem neuesten Stand zu bleiben und sicherzustellen, dass wir auch die fortschrittlichsten KI-Agenten erfassen können.
Frühere Untersuchungen haben ergeben, dass kommerzielle LLM-Detektoren durchweg voreingenommen gegenüber Nicht-Muttersprachlern (ESL, Englisch als Zweitsprache) sind. Um dies zu überprüfen, verwendeten die Forscher einen Benchmark von 91 Aufsätzen aus dem TOEFL (Test of English as a Foreign Language), um mehrere Detektoren zu testen.
Wir haben die 91 TOEFL-Aufsätze aus unserem Trainingssatz herausgenommen und Pangram Labs anhand des Benchmarks bewertet. Dank unserer Arbeit zur Minimierung der Falsch-Positiv-Rate für ESL können wir eine Falsch-Positiv-Rate von 0 % beim TOEFL-Benchmark verzeichnen – das bedeutet, dass keiner der menschlichen Aufsätze in diesem Benchmark fälschlicherweise als KI klassifiziert wurde.
Vergleich mit TOEFL-Benchmark
Das Erkennen von KI-generierten Inhalten ist keine leichte Aufgabe. Wir trainieren ein Deep-Learning-Modell mit einer Transformer-basierten Architektur und verwenden dabei zwei wichtige Methoden, um die Genauigkeit unseres Modells auf ein neues Niveau zu heben.
Jedes Dokument in unserem Trainingssatz ist entweder mit „Mensch“ oder „KI“ gekennzeichnet. Im maschinellen Lernen bezeichnen wir diese Dokumente als „Beispiele“.
Wir haben Millionen von menschlichen Beispielen aus öffentlichen Datensätzen, die wir zum Trainieren nutzen können, aber keine vergleichbaren KI-Datensätze. Wir lösen dieses Problem, indem wir jedes menschliche Beispiel mit einem „synthetischen Spiegelbild“ paaren – ein Begriff, den wir verwenden, um ein KI-generiertes Dokument zu beschreiben, das auf einem menschlichen Dokument basiert. Wir fordern ein LLM auf, indem wir ein Dokument zum gleichen Thema und mit derselben Länge anfordern. Bei einem Bruchteil der Beispiele lassen wir das LLM mit dem ersten Satz des menschlichen Dokuments beginnen, um die KI-Dokumente abwechslungsreicher zu gestalten.
Schon früh stießen wir beim Training unseres Modells an eine Grenze. Wir versuchten, weitere Beispiele hinzuzufügen, stellten jedoch schließlich fest, dass das Modell „gesättigt” war – weitere Trainingsbeispiele führten zu keiner weiteren Verbesserung des Modells.
Skalierungsgesetze-Experiment
Die Leistung dieses ersten Modells war unbefriedigend – es wies in vielen Bereichen immer noch eine Falsch-Positiv-Rate von über 1 % auf. Wir stellten fest, dass wir nicht nur mehr Beispiele brauchten, sondern auch schwierigere.
Wir haben schwierigere Beispiele identifiziert, indem wir unser ursprüngliches Modell genommen und Millionen von menschlichen Beispielen in offenen Datensätzen gescannt haben, um die schwierigsten Dokumente zu finden, die unser Modell falsch klassifiziert hat. Anschließend haben wir synthetische Spiegelbilder für diese Dokumente generiert und sie unserem Trainingssatz hinzugefügt. Schließlich haben wir das Modell neu trainiert und den Vorgang wiederholt.
Trainingsprozess für den KI-generierten Textklassifikator von Pangram Labs
Mit dieser Trainingsmethode konnten wir unsere Falsch-Positiv-Rate um den Faktor 100 reduzieren und ein Modell liefern, auf das wir stolz sind.
Tabelle der Falsch-Positiv-Raten nach Domain
Wir bezeichnen diese Methode als „Hard Negative Mining mit synthetischen Spiegeln“ und gehen in unserem technischen Bericht näher auf den Prozess ein.
Das ist natürlich noch nicht das Ende unserer Reise. Wir haben eine Reihe neuer Ideen, wie wir die Leistung auf die nächste Stufe heben können. Wir werden unsere Bewertungssätze weiter verbessern, damit wir die Falsch-Positiv-Rate auf Hundertstel Prozent genau verfolgen können. Wir planen, unser Modell auf andere Sprachen als Englisch auszuweiten und daran zu arbeiten, unsere Fehlerfälle zu verstehen und zu beheben. Seien Sie gespannt auf unsere nächsten Schritte!
Haben Sie Fragen oder Anmerkungen? Kontaktieren Sie uns unter info@pangram.com!
