Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Wie Pangram KI-generierte Inhalte erkennt

Technischen Bericht als PDF anzeigen

Überblick

Pangram Text wurde entwickelt, um KI-generierte Inhalte mit einer Falsch-Positiv-Rate von nahezu Null zu erkennen. Unser rigoroser Trainingsansatz minimiert Fehler und ermöglicht es dem Modell, KI-Texte zu erkennen, indem es subtile Hinweise im Text analysiert und versteht.

Anfänglicher Ausbildungsprozess

Unser Klassifikator verwendet eine traditionelle Sprachmodellarchitektur. Er empfängt den Eingabetext und tokenisiert ihn. Anschließend wandelt das Modell jedes Token in eine Einbettung um, bei der es sich um einen Vektor aus Zahlen handelt, der die Bedeutung jedes Tokens darstellt.

Die Eingabe wird durch das neuronale Netzwerk geleitet und erzeugt eine Ausgabe-Einbettung. Ein Klassifikator-Kopf wandelt die Ausgabe-Einbettung in eine 0- oder 1-Vorhersage um, wobei 0 die menschliche Bezeichnung und 1 die KI-Bezeichnung ist.

Wir trainieren ein erstes Modell anhand eines kleinen, aber vielfältigen Datensatzes von etwa 1 Million Dokumenten, der aus öffentlichen und lizenzierten, von Menschen verfassten Texten besteht. Der Datensatz enthält auch KI-generierte Texte, die von GPT-4 und anderen innovativen Sprachmodellen erstellt wurden. Das Ergebnis des Trainings ist ein neuronales Netzwerk, das zuverlässig vorhersagen kann, ob ein Text von einem Menschen oder einer KI verfasst wurde.

Kontinuierliche Verbesserung durch Iteration

Hartes Negativ-Mining

Das ursprüngliche Modell war bereits recht effektiv, aber wir wollten die Genauigkeit maximieren und die Möglichkeit von Fehlalarmen (falsche Vorhersagen, dass von Menschen verfasste Dokumente von KI generiert wurden) reduzieren. Zu diesem Zweck haben wir einen Algorithmus speziell für KI-Erkennungsmodelle entwickelt.

Mit dem ursprünglichen Datensatz verfügte unser Modell nicht über genügend Signale, um von einer Genauigkeit von 99 % auf 99,999 % zu kommen. Das Modell lernt zwar schnell die anfänglichen Muster in den Daten, muss jedoch auch schwierige Grenzfälle erkennen, um präzise zwischen von Menschen verfassten Texten und KI-Texten unterscheiden zu können.

Wir lösen dieses Problem, indem wir das Modell zur Suche nach Fehlalarmen in großen Datensätzen einsetzen und den ursprünglichen Trainingssatz vor dem erneuten Training um diese zusätzlichen schwierigen Beispiele ergänzen. Nach mehreren Durchläufen weist das resultierende Modell eine Fehlalarmquote von nahezu Null sowie eine insgesamt verbesserte Leistung bei den zurückbehaltenen Bewertungssätzen auf.

MENSCHKISpiegelaufforderungen
Spiegelaufforderungen
Wir gestalten die KI-Seite des Datensatzes so, dass sie in Stil, Tonfall und semantischem Inhalt der menschlichen Seite sehr ähnlich ist. Für jedes menschliche Beispiel generieren wir ein KI-generiertes Beispiel, das in möglichst vielen Punkten mit dem Originaldokument übereinstimmt, um sicherzustellen, dass unser Modell lernt, Dokumente ausschließlich anhand spezifischer Merkmale des LLM-Schreibstils zu klassifizieren.
Umschulen
Wir trainieren das Modell mit einem aktualisierten Trainingssatz und bewerten die Leistung des Modells bei jedem Schritt. Mit dieser Methode können wir Fehler reduzieren und die Genauigkeit unseres Modells über das mit normalem Training Mögliche hinaus steigern.
Diagramm zum Nachschulen des Modells

Mehr erfahren

arxiv.org
Technischer Bericht zum Pangram-KI-generierten Textklassifikator
Lesen Sie unser vollständiges technisches Whitepaper auf arXiv, in dem wir detailliert auf Trainingsdetails, Leistung und andere Experimente eingehen!
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.