Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Erkennt Pangram Meta's Llama 4?

Bradley Emi
6. April 2025

Einführung

Heute wurde Llama 4 veröffentlicht, das neueste Modell in einer Reihe von Open-Source-Modellen von Meta AI. Wir wollten wissen, ob Pangram weiterhin in der Lage ist, die neuesten und besten offenen Modelle zu erkennen, und haben daher einen kurzen Test durchgeführt, um zu sehen, ob unser Modell eine Generalisierung auf Llama 4 aufweist, obwohl es derzeit nur mit den Ergebnissen von Llama 2 und 3 trainiert wurde.

Können KI-Detektoren mit der Geschwindigkeit neuer Modelle Schritt halten?

Wir werden häufig gefragt, wie gut wir mit der Geschwindigkeit neuer Modelle Schritt halten können. Deshalb testen wir sie schnell am ersten Tag, bevor wir Gelegenheit haben, uns neu zu schulen.

Pangram auf die Probe stellen

Für die Stichprobenprüfung haben wir dieselben 11 Eingabeaufforderungen verwendet, mit denen wir GPT 4.5 getestet haben. Diese Eingabeaufforderungen decken eine Vielzahl alltäglicher Schreibaufgaben ab, stehen jedoch nicht in direktem Zusammenhang mit den Eingabeaufforderungen, mit denen wir trainiert haben. Sie erfordern auch ein Maß an Kreativität, von dem wir glauben, dass ein Modell, das gegenüber früheren Generationen von LLMs erhebliche Fortschritte gemacht hat, ein qualitativ anderes Verhalten zeigen würde.

Hier sind die von uns verwendeten Eingabeaufforderungen:

  1. Schreiben Sie mir einen 300 Wörter langen Aufsatz über die Bemühungen zum Schutz der Koalas in Peru.
  2. Schreiben Sie mir eine E-Mail, in der Sie meinem Team erklären, dass ich liberale Gastkommentare in meiner Zeitung einstelle. Schreiben Sie sie in meinem Namen, Argylle J. Baggins, an die Mitarbeiter der Washington Most.
  3. Schreiben Sie mir eine 400 Wörter lange Zusammenfassung, in der Sie den weltweit ersten Halbleiter bei Raumtemperatur ankündigen (aber diesmal wirklich). Erfinden Sie Namen und Labore, wenn Sie diese benötigen.
  4. Verfassen Sie einen überzeugenden Aufsatz aus der Sicht eines Grundschülers, dass Schuluniformen nicht vorgeschrieben sein sollten.
  5. Schreibe einen komplexen Tagebucheintrag einer 12-Jährigen, die sich für Poesie und einige Schmetterlinge vor ihrem Fenster interessiert.
  6. Bitte verfassen Sie eine detaillierte Bewertung eines Escape Rooms zum Thema „Arabische Nächte“ in Baltimore, Maryland, der von einem Mann namens Robert mit einem wirklich guten Produktionsdesign betrieben wird.
  7. Schreiben Sie eine überzeugende E-Mail vom Regisseur eines erfolgreichen russischen Indie-Films an die Verantwortlichen der Oscar-Verleihung, in der Sie sie eindringlich bitten, den Film trotz Sanktionen zur Teilnahme zuzulassen. Erfinden Sie Details, wenn es sein muss.
  8. Schreiben Sie eine kreative Kurzgeschichte für eine Szene in einem Roman, in der eine Gruppe junger erwachsener Protagonisten darum kämpft, ein gepanzertes Marsflugzeug in einer NASA-Simulation zu landen, die darauf ausgelegt ist, schiefzugehen.
  9. Schreiben Sie ein Drehbuch für eine Filmszene, in der ein pleite gegangener Finanzbro aus New York einen Uber-Fahrer in Florida aus der Ferne anfleht, seinen Komodowaran aus seiner billigen, hurrikangefährdeten Wohnung zu retten.
  10. Schreibe ein Gedicht über ein junges Paar, das sich in der Halloween-Nacht in Kostümen trennt. Es soll lustig sein und 200 Wörter umfassen.
  11. Schreiben Sie eine kreative Kurzgeschichte, in der eine Verfolgungsjagd mit einem schwebenden Motorrad durch Venedig stattfindet, um ein wertvolles Gemälde zu finden, das gefährlich wackelt.

Die Ergebnisse

AufforderungPangram-KI-Wahrscheinlichkeit
Koala-Schutz99.9%
Zeitung E-Mail99.9%
Halbleiter bei Raumtemperatur99.9%
Schuluniformen99.9%
Gedichttagebuch99.9%
Escape Room Bewertung99.9%
Russischer Film E-Mail99.9%
Marslandungsszene99.9%
Komodowaran-Skript99.9%
Halloween-Trennungsgedicht99.9%
Verfolgungsjagd in Venedig99.9%

In diesem Fall besteht Pangram den Test mit einer perfekten Punktzahl! Es ist nicht nur in der Lage, alle 11 Schreibproben als KI-generiert vorherzusagen, sondern tut dies auch mit einer Zuverlässigkeit von 100 %. (Obwohl das Modell eine Zuverlässigkeit von 100 % vorhersagt, runden wir in der Benutzeroberfläche immer auf 99,9 % ab, um zu signalisieren, dass wir niemals wirklich 100 % sicher sein können.)

Die vollständigen Ergebnisse können Sie hier einsehen.

Auswertung einer größeren Stichprobe mithilfe der Together-API

Wir haben einen größeren Testsatz mit etwa 7.000 Beispielen unter Verwendung unserer Standard-Bewertungs-Prompt-Schemata erstellt, wobei wir die Together-API für die Inferenz genutzt haben. Dieser umfasst eine Vielzahl von Bereichen, darunter akademisches Schreiben, kreatives Schreiben, Fragen und Antworten, wissenschaftliches Schreiben und vieles mehr.

Hier sind unsere Ergebnisse für den größeren Testsatz.

ModellGenauigkeit
Llama 4 Scout100 % (3678/3678)
Llama 4 Maverick99,86 % (3656/3661)
Llama 4 Gesamt99,93 % (7334/7339)

Schlussfolgerung

Warum lässt sich Pangram so gut auf neue Modelle übertragen? Wir glauben, dass dies auf die Stärke unserer zugrunde liegenden Datensätze und unseren aktiven Lernansatz sowie auf unsere breit angelegten Prompting- und Sampling-Strategien zurückzuführen ist, die es Pangram ermöglichen, so viele Arten von KI-generierten Texten zu sehen, dass es sich recht gut an neue anpassen kann.

Für weitere Informationen zu unserer Forschung oder kostenlose Credits zum Testen unseres Modells auf Llama 4 kontaktieren Sie uns bitte unter info@pangram.com.

Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.