Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Heute wurde Llama 4 veröffentlicht, das neueste Modell in einer Reihe von Open-Source-Modellen von Meta AI. Wir wollten wissen, ob Pangram weiterhin in der Lage ist, die neuesten und besten offenen Modelle zu erkennen, und haben daher einen kurzen Test durchgeführt, um zu sehen, ob unser Modell eine Generalisierung auf Llama 4 aufweist, obwohl es derzeit nur mit den Ergebnissen von Llama 2 und 3 trainiert wurde.
Wir werden häufig gefragt, wie gut wir mit der Geschwindigkeit neuer Modelle Schritt halten können. Deshalb testen wir sie schnell am ersten Tag, bevor wir Gelegenheit haben, uns neu zu schulen.
Für die Stichprobenprüfung haben wir dieselben 11 Eingabeaufforderungen verwendet, mit denen wir GPT 4.5 getestet haben. Diese Eingabeaufforderungen decken eine Vielzahl alltäglicher Schreibaufgaben ab, stehen jedoch nicht in direktem Zusammenhang mit den Eingabeaufforderungen, mit denen wir trainiert haben. Sie erfordern auch ein Maß an Kreativität, von dem wir glauben, dass ein Modell, das gegenüber früheren Generationen von LLMs erhebliche Fortschritte gemacht hat, ein qualitativ anderes Verhalten zeigen würde.
Hier sind die von uns verwendeten Eingabeaufforderungen:
| Aufforderung | Pangram-KI-Wahrscheinlichkeit |
|---|---|
| Koala-Schutz | 99.9% |
| Zeitung E-Mail | 99.9% |
| Halbleiter bei Raumtemperatur | 99.9% |
| Schuluniformen | 99.9% |
| Gedichttagebuch | 99.9% |
| Escape Room Bewertung | 99.9% |
| Russischer Film E-Mail | 99.9% |
| Marslandungsszene | 99.9% |
| Komodowaran-Skript | 99.9% |
| Halloween-Trennungsgedicht | 99.9% |
| Verfolgungsjagd in Venedig | 99.9% |
In diesem Fall besteht Pangram den Test mit einer perfekten Punktzahl! Es ist nicht nur in der Lage, alle 11 Schreibproben als KI-generiert vorherzusagen, sondern tut dies auch mit einer Zuverlässigkeit von 100 %. (Obwohl das Modell eine Zuverlässigkeit von 100 % vorhersagt, runden wir in der Benutzeroberfläche immer auf 99,9 % ab, um zu signalisieren, dass wir niemals wirklich 100 % sicher sein können.)
Die vollständigen Ergebnisse können Sie hier einsehen.
Wir haben einen größeren Testsatz mit etwa 7.000 Beispielen unter Verwendung unserer Standard-Bewertungs-Prompt-Schemata erstellt, wobei wir die Together-API für die Inferenz genutzt haben. Dieser umfasst eine Vielzahl von Bereichen, darunter akademisches Schreiben, kreatives Schreiben, Fragen und Antworten, wissenschaftliches Schreiben und vieles mehr.
Hier sind unsere Ergebnisse für den größeren Testsatz.
| Modell | Genauigkeit |
|---|---|
| Llama 4 Scout | 100 % (3678/3678) |
| Llama 4 Maverick | 99,86 % (3656/3661) |
| Llama 4 Gesamt | 99,93 % (7334/7339) |
Warum lässt sich Pangram so gut auf neue Modelle übertragen? Wir glauben, dass dies auf die Stärke unserer zugrunde liegenden Datensätze und unseren aktiven Lernansatz sowie auf unsere breit angelegten Prompting- und Sampling-Strategien zurückzuführen ist, die es Pangram ermöglichen, so viele Arten von KI-generierten Texten zu sehen, dass es sich recht gut an neue anpassen kann.
Für weitere Informationen zu unserer Forschung oder kostenlose Credits zum Testen unseres Modells auf Llama 4 kontaktieren Sie uns bitte unter info@pangram.com.
