Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Foto von Google DeepMind.
Wir freuen uns, Ihnen heute unsere Fähigkeit zu präsentieren, uns schnell an neue LLMs auf dem Markt anzupassen, indem wir ein Update für unser Modell veröffentlichen, das eine nahezu perfekte Genauigkeit bei der Erkennung von KI-geschriebenem Text aus GPT-4o, Claude 3 und LLaMA 3 erreicht.
Unser zuletzt veröffentlichtes Modell war ziemlich gut darin, die Ergebnisse der neuen Modelle zu erkennen, auch ohne Beispiele dafür im Trainingssatz gesehen zu haben. Wir geben uns jedoch nicht mit „ziemlich gut“ zufrieden, sondern wollen sicherstellen, dass wir die Grenzen des Möglichen im Bereich der KI-Erkennung kontinuierlich erweitern und für unsere Kunden die bestmögliche Genauigkeit erzielen.
Um zu testen, wie gut wir bei den Sprachmodellen der nächsten Generation abschneiden, haben wir unseren Bewertungssatz mit 25.000 Beispielen für schwer zu klassifizierende menschliche Texte und KI-generierte Texte aus einer Reihe von Sprachmodellen überarbeitet. Etwa 40 % dieses neuen Bewertungssatzes bestehen aus einer Vielzahl von KI-generierten Texten aus GPT-4o, Claude 3 und LLaMA 3, die mehrere Textbereiche abdecken, darunter Nachrichten, Rezensionen, Bildung und mehr.
Wir verwenden alle Versionen der neuen Modelle, sobald sie verfügbar sind: Beispielsweise nehmen wir gleichmäßige Stichproben aus den Versionen Opus, Sonnet und Haiku von Claude 3.
Nachdem wir unseren Trainingsdatensatz aktualisiert haben, um die neuesten LLMs zu integrieren, stellen wir fest, dass wir erneut eine nahezu perfekte Genauigkeit bei Texten erzielen, die von der neuesten Generation von Sprachmodellen generiert wurden.
| LLM | Pangram-Text März Genauigkeit | Pangram-Text Mai Genauigkeit | % Verbesserung |
|---|---|---|---|
| Alle | 99.54% | 99.84% | +0.30% |
| GPT-4o | 99.78% | 100% | +0.22% |
| Claude 3 | 99.12% | 99.76% | +0.64% |
| LLaMA 3 | 99.58% | 99.97% | +0.39% |
Zusätzlich zur Leistungssteigerung bei den neuen Modellen haben wir festgestellt, dass die Einbeziehung von Trainingsdaten aus der neuesten Modellgeneration tatsächlich zu einer geringfügigen Leistungssteigerung bei mehreren älteren Modellen führt.
Wir stellen fest, dass wir, ohne Regressionen in unserem alten Modellbewertungssatz einzuführen, tatsächlich mehrere Fälle aus der GPT-3.5- und (regulären) GPT-4-Erkennung verbessern. Konkret stellen wir fest, dass 8 GPT-3.5-Fälle, die zuvor vom Modell nicht erkannt wurden, nun erfolgreich sind, und 13 GPT-4-Fälle, die zuvor vom Modell nicht erkannt wurden, nun ebenfalls erfolgreich sind. Wir kommen zu dem Schluss, dass die verbesserte Fähigkeit unseres Modells, GPT-4o, Claude 3 und LLaMA 3 zu erkennen, keine Einbußen bei der Erkennung älterer Modelle mit sich bringt.
Wir waren uns von Anfang an bewusst, dass sich die Grenzen von LLMs schnell verändern würden, und haben unsere Systemarchitektur entsprechend gestaltet. Unsere Systeme sind so aufgebaut, dass sie Daten regenerieren und innerhalb weniger Stunden nach der Veröffentlichung einer neuen API mit dem Training eines neuen Modells beginnen können.
Wenn ein neues Modell veröffentlicht wird, ist das Erstellen eines neuen Datensatzes und das erneute Trainieren des Modells so einfach wie eine Konfigurationsänderung. Wir verfügen über eine Standardbibliothek mit Prompt-Vorlagen, die so konzipiert sind, dass sie in LLMs eingespeist werden können, um menschenähnliche Texte zu erzeugen, die denen in unserem Datensatz sehr ähnlich sind, aber nicht genau mit ihnen übereinstimmen. Wir beschreiben diesen Prozess, der als „Hard Negative Mining with Synthetic Mirrors” bezeichnet wird, ausführlich in unserem technischen Bericht.
Der Zeitplan für die Veröffentlichung dieses neuen Modells sah wie folgt aus:
13. Mai: GPT-4o wurde veröffentlicht und in der OpenAI-API verfügbar gemacht. 14. Mai: Die Datensatz-Pipeline wurde aktualisiert und neue Trainings- und Evaluierungssätze wurden erstellt. 15.–16. Mai: Das KI-Erkennungsmodell wurde anhand der neuen Datensätze trainiert. 17. Mai: Es wurden Qualitätssicherungs- und Plausibilitätsprüfungen durchgeführt und das Modell wurde veröffentlicht.
Die von uns aufgebaute Infrastruktur ermöglicht es uns, uns schnell anzupassen und Texte aus neuen Modellen innerhalb von nur einer Woche in das Produktionserkennungssystem zu integrieren.
Da neue Modelle immer besser werden, müssen sie doch auch schwieriger zu erkennen sein, oder? Wir haben noch keine Beweise für diese verlockende, aber letztlich fehlgeleitete Argumentation gefunden.
Beobachtungsgemäß stellen wir fest, dass die leistungsfähigeren Modelle aufgrund ihres eigenwilligeren Stils tatsächlich leichter zu erkennen sind als die weniger leistungsfähigen Modelle. So haben wir beispielsweise festgestellt, dass unser altes Modell Claude Opus besser erkennen konnte als Sonnet und Haiku.
Wie wir auf der LMSYS-Rangliste sehen können, konvergieren viele Foundation-Modelle asymptotisch zum Niveau von GPT-4, aber kein Modell hat es bisher überzeugend mit einem deutlichen Vorsprung geschlagen. Aus der Vogelperspektive betrachtet ist es nicht verwunderlich, dass die Sprache, die aus all diesen Modellen hervorgeht, sich letztendlich unglaublich ähnlich anhört, wenn mehrere verschiedene Basis-Modell-Unternehmen dieselbe aufmerksamkeitsbasierte Architektur verwenden und sie auf das gesamte Internet trainieren. Diejenigen, die regelmäßig mit Sprachmodellen interagieren, werden sofort verstehen, was wir damit meinen.
Auf Beobachtungsebene stellen wir nach wie vor fest, dass LLMs, wenn sie aufgefordert werden, kreativ und authentisch zu schreiben, wie beispielsweise einen Meinungsaufsatz, eine Rezension oder eine kreative Kurzgeschichte, immer noch einfallslose und fade Texte produzieren. Wir glauben, dass dies im Wesentlichen eine Eigenschaft des Optimierungsziels ist, das darauf abzielt, Vervollständigungen mit hoher Wahrscheinlichkeit vorherzusagen und gleichzeitig originelle Gedanken und Ideen außerhalb der Verteilung zu vermeiden.
Wir schätzen originelle Texte unserer Mitmenschen, weil sie uns eine neue Perspektive oder eine andere Denkweise bieten können, nicht weil sie das sind, was eine Person durchschnittlich sagen würde. Solange dieser Wert gilt, wird es immer einen Bedarf an KI-Erkennung geben, und es wird immer einen Weg geben, dieses Problem zu lösen.
