Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Der Pangram Text AI Detector ist jetzt mehrsprachig!

Bradley Emi
1. Juli 2024

Foto von Valentin Antonucci.

Wir freuen uns, ein umfangreiches Update für Pangram Text, unser Flaggschiff-Modell zur KI-Erkennung, bekannt zu geben. Pangram Text kann nun KI-generierte Texte in Spanisch, Französisch, Italienisch, Portugiesisch, Deutsch, Russisch und Mandarin-Chinesisch mit derselben branchenführenden Genauigkeit erkennen wie Texte in englischer Sprache. Wir führen unser neues mehrsprachiges Modell ein, um Online-Plattformen sofort vor KI-Spam zu schützen.

Benchmarking

Um die Genauigkeit unseres Modells für nicht-englische Sprachen zu testen, verwenden wir drei große, vielfältige mehrsprachige Korpora aus verschiedenen Bereichen: mehrsprachige Rezensionen von Amazon, Wikipedia und XLSum (BBC News International).

Für die menschliche Seite des Benchmarks nehmen wir Stichproben aus zufälligen Dokumenten, die unsere Sanity-Check-Filter passieren. Für die KI-Seite des Benchmarks verwenden wir eine Mischung aus GPT-3.5, GPT-4 und GPT-4o. Zunächst bitten wir das LLM, das echte Dokument zusammenzufassen, z. B. „Worum geht es in dieser Rezension?“ Dann bitten wir es, anhand der Zusammenfassung eine Rezension, einen Artikel oder einen Nachrichtenbeitrag zu erstellen. Durch die Erstellung des Benchmarks auf diese Weise wird die Möglichkeit von Label-Rauschen ausgeschlossen und sichergestellt, dass die Datenverteilungen von Mensch und KI so ähnlich wie möglich sind.

SpracheGenauigkeit der Amazon-RezensionenGenauigkeit von WikipediaXLSum (BBC News) Genauigkeit
Spanisch99.59%99.75%99.75%
Französisch98.84%99.33%98.50%
ItalienischNicht zutreffend99.82%Nicht zutreffend
Deutsch99.44%99.95%Nicht zutreffend
PortugiesischNicht zutreffend99.83%99.70%
RussischNicht zutreffend98.34%99.35%
Chinesisch99.70%99.54%98.10%

Häufig gestellte Fragen

  • Wie haben Sie das Modell aktualisiert, um diese Sprachen zu unterstützen?

Da unser Modell auf einer ähnlichen Architektur wie moderne große Sprachmodelle basiert, verwenden wir groß angelegtes Vortraining, um sicherzustellen, dass unser Backbone auf einem großen mehrsprachigen Korpus trainiert wird, bevor wir einen KI-Erkennungskopf feinabstimmen. Wir verwenden außerdem einen Tokenizer, der viele Sprachen unterstützt, darunter Russisch und Chinesisch.

  • Warum haben Sie sich für diese Sprachen entschieden?

Wir haben Sprachen ausgewählt, die die Mehrheit der im Internet verwendeten Sprachen repräsentieren.

  • Was passiert, wenn ich einen Text in einer Sprache einreiche, die nicht unterstützt wird?

Wir verwenden Amazon Comprehend, um die Sprache des eingegebenen Textes zu erkennen. Wenn die Sprache nicht unterstützt wird, geben wir „Unsupported Language“ (Nicht unterstützte Sprache) als Vorhersage zurück.

  • Wird sich das Modell mit der Zeit verbessern?

Ja, wir gehen davon aus, dass wir in Zukunft Updates mit verbesserter Leistung für nicht-englische Sprachen veröffentlichen werden, da wir unseren mehrsprachigen Datensatz durch aktives Lernen kontinuierlich erweitern.

  • Was ist mit anderen Sprachen?

Wir planen, in Zukunft weitere Sprachen zu unterstützen. Wenn Sie eine Sprache haben, die Sie gerne unterstützt sehen würden, lassen Sie es uns bitte wissen!

Kontaktieren Sie uns unter info@pangram.com, um weitere Informationen zur mehrsprachigen KI-Erkennung zu erhalten.

Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.