Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Vor zwei Monaten hat Pangram das erste mehrsprachige KI-Erkennungsmodell veröffentlicht. Jetzt können wir ein Update ankündigen! Pangram unterstützt nun offiziell die 20 wichtigsten Sprachen im Internet und funktioniert inoffiziell auch bei vielen weiteren Sprachen gut. Besonders stark und deutlich verbessert ist die Leistung bei Arabisch, Japanisch, Koreanisch und Hindi.
Wir haben etwa 2.000 Dokumente pro Sprache in unserem offiziellen Support-Set ausgewertet. Der menschliche Teil besteht aus einer Mischung aus echten Rezensionen, Nachrichtenartikeln und Wikipedia-Artikeln. Der KI-Teil besteht aus einer Reihe von Aufsätzen, Nachrichtenartikeln und Blogbeiträgen, die wir GPT-4o in verschiedenen Längen, Stilen und Themen schreiben ließen.
| Sprache | Genauigkeit | Falsch-positiv-Rate | Falsch-negativ-Rate |
|---|---|---|---|
| Arabisch | 99.95% | 0.10% | 0.00% |
| Tschechisch | 99.95% | 0.00% | 0.11% |
| Deutsch | 99.85% | 0.00% | 0.32% |
| Griechisch | 99.90% | 0.00% | 0.21% |
| Spanisch | 100.00% | 0.00% | 0.00% |
| Persisch | 100.00% | 0.00% | 0.00% |
| Französisch | 100.00% | 0.00% | 0.00% |
| Hindi | 99.79% | 0.00% | 0.42% |
| Ungarisch | 99.49% | 0.10% | 0.95% |
| Italienisch | 100.00% | 0.00% | 0.00% |
| Japanisch | 100.00% | 0.00% | 0.00% |
| Niederländisch | 99.95% | 0.10% | 0.00% |
| Polnisch | 100.00% | 0.00% | 0.00% |
| Portugiesisch | 100.00% | 0.00% | 0.00% |
| Rumänisch | 99.95% | 0.10% | 0.00% |
| Russisch | 100.00% | 0.00% | 0.00% |
| Schwedisch | 99.95% | 0.00% | 0.11% |
| Türkisch | 99.90% | 0.00% | 0.21% |
| Ukrainisch | 99.95% | 0.00% | 0.11% |
| Urdu | 99.44% | 0.00% | 1.16% |
| Vietnamesisch | 99.95% | 0.00% | 0.11% |
| Chinesisch | 99.95% | 0.00% | 0.11% |
Hier sind die wichtigsten Änderungen, die wir zur Verbesserung unseres mehrsprachigen Supports vorgenommen haben:
Wir haben eine aktive Lernkampagne für Web-Scale-Daten durchgeführt, die sich auf die 20 wichtigsten Sprachen im Internet konzentrierte.
Wir haben den Tokenizer geändert, um nicht-englische Sprachen besser zu unterstützen.
Wir haben die Parameteranzahl des Basismodells und der LoRA-Adapter erhöht.
Wir haben eine Datenvergrößerung angewendet, um einen zufälligen Teil unseres Datensatzes vor dem Training maschinell zu übersetzen.
Wir haben einen Fehler bei der Wortzählung behoben, der dazu führte, dass ostasiatische Sprachen im Trainingssatz versehentlich unterrepräsentiert waren.
Die Grundlage unseres Prozesses zur Erstellung von Modellen mit extrem niedrigen Falsch-Positiv-Raten ist aktives Lernen: Einfach ausgedrückt, durchsuchen wir das Internet vor 2022 nach Beispielen, bei denen unser Modell schlecht abschneidet (z. B. Falsch-Positiv-Ergebnisse), fügen diese Beispiele unserem Trainingssatz hinzu, trainieren das Modell neu und wiederholen den Vorgang. Wir beschreiben diesen Algorithmus ausführlich in unserem technischen Bericht.
Wir können unseren aktiven Lernansatz auf einige große mehrsprachige Datensätze im Internet anwenden, um mehrsprachige Texte zu finden, mit denen unser aktuelles Modell Schwierigkeiten hat, und diese Daten dann zusammen mit unserer großen Bibliothek von Prompts zur Erstellung synthetischer Spiegelbilder verwenden: KI-Texte, die den von uns gefundenen falschen Positiven ähneln. Während wir uns auf die 20 wichtigsten Sprachen im Internet konzentrieren, entfernen wir unseren Sprachfilterungsschritt aus unserer Datenpipeline: Das bedeutet, dass Texte aus allen Sprachen für das Hard Negative Mining und die Aufnahme in unseren Trainingssatz in Frage kommen.
Einer der Vorteile unseres aktiven Lernansatzes besteht darin, dass er die Verteilung der Sprachen automatisch auf der Grundlage der Genauigkeit unseres Modells neu ausbalanciert. Sprachen mit geringen Ressourcen sind online unterrepräsentiert, aber aufgrund dieses Ungleichgewichts der Klassen schneidet unser erstes Modell bei Sprachen mit geringen Ressourcen zunächst schlecht ab, was dazu führt, dass mehr Texte aus seltenen Sprachen im Hard Negative Mining-Lauf auftauchen. Wir beobachten, dass im Laufe des aktiven Lernprozesses der Anteil der Daten aus Sprachen mit hohen Ressourcen wie Englisch, Spanisch und Chinesisch in unserem Trainingssatz allmählich abnimmt und der Anteil seltenerer Sprachen zunimmt. Wir halten dies für eine relativ elegante Lösung für die natürliche unausgewogene Datenverteilung beim Training mehrsprachiger Modelle. Durch unseren aktiven Lernalgorithmus ist das Modell in der Lage, selbst die Daten in den Sprachen auszuwählen, die es häufiger sehen muss.
Um mehrsprachige Texte im Eingabebereich besser unterstützen zu können, wollten wir auch sicherstellen, dass das Basis-LLM, das wir zum Aufbau unseres Klassifikators verwenden, auch viele nicht-englische Sprachen fließend beherrscht. Wir haben mehrere LLM-Backbones und Tokenizer in unserem Datensatz getestet, um denjenigen zu finden, der unter einer Vielzahl von nicht-englischen Sprachen insgesamt die beste Leistung erbringt. Wir haben festgestellt, dass die Leistung bei mehrsprachigen Benchmarks offenbar nicht stark mit der Leistung des Backbones bei unserer KI-Erkennungsaufgabe korreliert: Mit anderen Worten, selbst wenn das Basismodell Denkaufgaben lösen und Fragen in anderen Sprachen beantworten kann, variiert die Effektivität des Kompetenztransfers zur mehrsprachigen KI-Erkennung extrem stark.
Wir haben außerdem festgestellt, dass unsere ursprünglich trainierten Modelle dazu neigten, die neue mehrsprachige Verteilung zu untertreffen – wir beobachteten zunächst einen höheren Trainingsverlust. Zu diesem Zweck haben wir auch die Größe des Basismodells sowie die Parameteranzahl in unseren LoRA-Adaptern erhöht und das Modell für mehr Schritte trainiert. (Da wir uns in einem aktiven Lern-/Hochdatenregime befinden, trainieren wir fast nie länger als eine Epoche. In diesem Fall mussten wir lediglich die Größe der Epoche erweitern!
Selbst mit aktivem Lernen ist die Vielfalt der Daten in nicht-englischen Sprachen deutlich geringer als die Vielfalt und Menge der englischen Daten im Internet, und wir können dies nicht vollständig korrigieren, indem wir einfach die Sprachverteilung im Trainingssatz neu ausbalancieren. Grob gesagt gibt es einige englische Daten, die wertvoll sind, aber in anderen Sprachen einfach nicht existieren oder keine Entsprechung in der Muttersprache haben. Daher haben wir uns entschlossen, einen kleinen Teil unseres Datensatzes nach dem Zufallsprinzip einer maschinellen Übersetzung zu unterziehen (in unserem Fall haben wir Amazon Translate verwendet).
Obwohl es nicht üblich ist, maschinelle Übersetzungserweiterungen auf den Trainingssatz im LLM-Training anzuwenden, da maschinell übersetzte Daten oft unnatürlich sind und unter „Übersetzungssprache“ leiden, scheint dies in unserem Fall, da wir kein generatives Modell trainieren, die Ausgabequalität nicht zu beeinträchtigen, und wir haben nach der Anwendung dieser Erweiterung Verbesserungen unserer Metriken festgestellt.
Wir nehmen Spanisch als charakteristisches Beispiel für eine ressourcenintensive Sprache, die zuvor von Pangram Text unterstützt wurde, nun aber deutlich verbessert wurde. Wir messen die Falsch-Positiv-Rate in verschiedenen Bereichen.
| Datensatz | Falsch-positiv-Rate (vorher) | Falsch-Positiv-Rate (nachher) | Anzahl der Beispiele |
|---|---|---|---|
| Spanische Amazon-Rezensionen | 0.09% | 0% | 20,000 |
| Wikilingua (WikiHow-Artikeltext) | 3.17% | 0.14% | 113,000 |
| XL-SUM (Nachrichtenartikel in spanischer Sprache) | 0.08% | 0% | 3,800 |
| Spanische Wikipedia | 0.29% | 0.04% | 67,000 |
| Spanisch CulturaX | 0.22% | 0.01% | 1,800,000 |
| Spanische Blogbeiträge, die wir manuell kuratiert haben | 0% | 0% | 60 |
Wir haben auch die Falsch-Negativ-Rate (die Rate, mit der KI-generierter Text fälschlicherweise als menschlich klassifiziert wird) für verschiedene große Sprachmodelle gemessen. In diesem Experiment haben wir eine Liste mit Eingabeaufforderungen für LLMs erstellt, um Essays, Blogbeiträge und Nachrichtenartikel in verschiedenen Längen und Stilen zu generieren, und diese Eingabeaufforderungen dann ins Spanische übersetzt. Die LLMs selbst sind mehrsprachig und reagieren daher auf die Anweisungen auf Spanisch.
| Modell | Falsch-negativ-Rate (vorher) | Falsch-negativ-Rate (nachher) | Anzahl der Beispiele |
|---|---|---|---|
| GPT-4o | 2.1% | 0% | 1,400 |
| Claude 3.5 Sonett | 0.7% | 0% | 1,400 |
| Claude 3 Opus | 1.05% | 0% | 1,400 |
| Gemini 1.5 Pro | 2.85% | 0% | 1,400 |
Wie wir sehen können, erzielt unser aktualisiertes Modell eine perfekte Erkennung bei allen getesteten LLMs und stellt damit eine deutliche Verbesserung gegenüber unserer vorherigen Version dar.
Zwei der Sprachen, auf deren Verbesserung wir uns am meisten konzentriert haben, sind weltweit weit verbreitet, im Internet jedoch weniger häufig anzutreffen: Arabisch und Japanisch.
| Datensatz | Arabische Falsch-Positiv-Rate | Japanische Falsch-Positiv-Rate | Arabische Beispiele | Beispiele auf Japanisch |
|---|---|---|---|---|
| Amazon-Rezensionen | 0% | 0% | Nicht zutreffend | 20,000 |
| AR-AES (Arabisch-Schüler-Schreiben) | 0% | Nicht zutreffend | 2,000 | Nicht zutreffend |
| Wikilingua (WikiHow-Artikeltext) | 0.58% | 0.55% | 29,000 | 12,000 |
| XL-SUM (Nachrichtenartikel in der Landessprache) | 0% | 0% | 4,000 | 733 |
| Wikipedia | 0.09% | 0.009% | 31,000 | 96,000 |
| CulturaX | 0.08% | 0.21% | 1,785,000 | 1,409,000 |
| Von uns manuell kuratierte Blogbeiträge | 0% | 0% | 60 | 60 |
Bisher haben wir diese beiden Sprachen nicht unterstützt, sodass die Falsch-Negativ-Rate extrem hoch war. Jetzt können wir KI-generiertes Arabisch und Japanisch sehr gut und zuverlässig vorhersagen.
| Modell | Arabisch FNR | Japanisches FNR |
|---|---|---|
| GPT-4o | 0% | 0% |
| Claude 3.5 Sonett | 0% | 0% |
| Claude 3 Opus | 0% | 0% |
| Gemini 1.5 Pro | 0% | 0.21% |
Wie wir sehen können, erzielt unser aktualisiertes Modell bei allen getesteten LLMs sowohl für Arabisch als auch für Japanisch eine nahezu perfekte Erkennungsrate, mit einer nur geringfügigen Falsch-Negativ-Rate von 0,21 % für Gemini 1.5 Pro in Japanisch.
Die vollständigen Ergebnisse der Sprachbenchmarks sind auf Anfrage erhältlich.
Während unsere Leistung bei nativen Webtexten stark ist, hat unser Modell manchmal Schwierigkeiten, „Übersetzungssprache“ zu erkennen – Texte, die schlecht übersetzt sind oder sich anderweitig unnatürlich anhören. Erschwerend kommt hinzu, dass viele Menschen mittlerweile LLMs wie ChatGPT direkt für Übersetzungsaufgaben verwenden. Sollten mit LLM übersetzte Texte als menschlich oder als KI klassifiziert werden? Das hängt davon ab, wie schwerfällig die Übersetzung ist, und auch vom Anwendungsfall in der nachgelagerten Anwendung. Ein Spanischlehrer könnte die Verwendung von maschineller Übersetzung für eine Hausarbeit als akademische Unredlichkeit betrachten, während ein Verlag möglicherweise übersetzte Werke nach seinem Qualitätssicherungsprozess zulassen möchte. Pangram arbeitet aktiv daran, übersetzte Texte als „dritte Modalität“ zu verstehen, die irgendwo zwischen Mensch und KI liegt, und unseren Nutzern mehr Informationen zur Verfügung zu stellen, damit die nachgelagerten Verbraucher unseres Modells entscheiden können, was für sie das Richtige ist.
Haben Sie weitere Fragen? Kontaktieren Sie uns unter info@pangram.com!
