Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Pangram ist die führende Software zur Erkennung von KI-generierten Texten, die von ChatGPT, Claude, Gemini und anderen geschrieben wurden, und zur Unterscheidung von KI-geschriebenen Texten und von Menschen geschriebenen Texten.
Wir gehen nun noch einen Schritt weiter und veröffentlichen ein fortschrittliches Modell, das nicht nur KI-generierte Inhalte erkennen kann, sondern auch feststellen kann, aus welchem LLM ein KI-generierter Text stammt. Wir nennen unsere neue Technologie „KI-Identifizierung”.
Intuitiv beginnen die Menschen zu erkennen, dass die verschiedenen LLMs unterschiedliche Schreibstile haben. So ist beispielsweise ChatGPT dafür bekannt, recht direkt und unverblümt zu sein, Claude für seine flüssige und gesprächige Art, Grok für seine Unzensiertheit und Provokativität und Deepseek-R1 dafür, dass es etwas weitschweifig und wortreich ist.
Graham Neubig macht sich über die unterschiedlichen stilistischen Tendenzen der verschiedenen LLMs lustig.
Ethan Mollick sinniert über Claude Sonnets angenehme Persönlichkeit.
Eine aktuelle Studie von Lisa Dunlap und ihren Kollegen an der UC Berkeley untersuchte die qualitativen Unterschiede (oder informell ausgedrückt die „Stimmung“) verschiedener LLMs. Sie fanden viele interessante Dinge heraus, beispielsweise, dass „Llama humorvoller ist, mehr Formatierungen verwendet, mehr Beispiele liefert und sich viel weniger zu ethischen Fragen äußert als GPT und Claude“. Die Schlussfolgerung lautet, dass die Modellleistung nicht immer mit den menschlichen Präferenzen übereinstimmt: Obwohl GPT-4 und Claude-3.5 fortschrittlichere Modelle als die Llama-Serie sind, scheint Llama auf Chatbot Arena, einem crowdsourced Elo-basierten Ranking von LLMs, das auf Präferenzen hinsichtlich der Antworten auf dieselben Eingaben basiert, immer über sich hinauszuwachsen. Sind Modelle, die auf Chatbot Arena gut abschneiden, intelligenter und leistungsfähiger, oder versuchen sie nur, die menschliche Psychologie so zu manipulieren, dass sie „sympathischer“ wirken? Und einige Modelle sind hilfreicher und sympathischer als andere – ist es überhaupt wichtig, dass sie weniger in der Lage sind, Probleme auf Doktorandenebene zu lösen? Dies sind Fragen, die es wert sind, untersucht zu werden, und die wichtig sind, um den Nutzen von Systemen wie Chatbot Arena gegenüber traditionellen Modellbewertungen zu verstehen.
Wir haben uns bei Pangram gefragt, ob es möglich ist, dass unser Modell diese Schwingungen nutzen könnte, um diese LLMs voneinander zu unterscheiden.
Ähnlich wie wir unser Basis-KI-Erkennungsmodell trainieren, um KI-Texte von menschlichen Texten zu unterscheiden, trainieren wir dasselbe Erkennungsmodell auch für die KI-Identifizierung mithilfe einer Technik namens Multi-Task-Lernen. In der Praxis klassifizieren wir die verschiedenen Sprachmodelle in 9 Familien, die wir durch umfangreiche Experimente ermittelt haben.
Die Familien sind folgende:
In der Praxis erreichen wir dies, indem wir unserem neuronalen Netzwerk einen weiteren „Kopf“ hinzufügen. Wenn wir die KI-Erkennungsaufgabe überwachen, überwachen wir auch die KI-Identifizierungsaufgabe, indem wir das Modelllabel an das Netzwerk weitergeben und den Fehler in der KI-Identifizierung sowie die Erkennungsvorhersage rückwärts propagieren.
Bildquelle: GeeksForGeeks
Fast alle Schichten des Modells werden von beiden Aufgaben gemeinsam genutzt, nur die letzte Vorhersageschicht ist aufgeteilt.
Beim Multitask-Lernen stellen wir fest, dass sich manche Aufgaben gegenseitig unterstützen, wenn sie gemeinsam gelernt werden, während andere sich gegenseitig behindern. In der Biologie gibt es ein ähnliches Konzept, nämlich die Idee der Symbiose im Gegensatz zum Parasitismus. Ein Beispiel für Symbiose ist beispielsweise ein Clownfisch, der in einer Seeanemone lebt: Der Clownfisch ernährt sich von Raubtieren, die der Anemone schaden können, während er selbst durch seine Tarnung und sein Versteck in der Anemone vor seinen eigenen Raubtieren geschützt ist.
Wir stellen fest, dass das Hinzufügen der LLM-Identifizierungsaufgabe symbiotisch mit der LLM-Erkennungsaufgabe ist. Mit anderen Worten: Unser Modell nicht nur dazu aufzufordern, KI-generierten Text zu erkennen, sondern auch das Modell zu identifizieren, aus dem er stammt, ist insgesamt hilfreich, um KI erkennen zu können. Andere Forscher haben ebenfalls bestätigt, dass sich die verschiedenen LLMs nicht nur von menschlichem Text unterscheiden, sondern auch voneinander.

Eine Einbettung ist eine Darstellung eines Textabschnitts als numerischer Vektor. Die tatsächlichen Werte der Einbettung sind für sich genommen nicht aussagekräftig, aber wenn zwei Einbettungen nahe beieinander liegen, bedeutet dies, dass sie entweder eine ähnliche Bedeutung oder einen ähnlichen Stil haben. Mit einer Technik namens UMAP können wir die Einbettungen, die sehr hochdimensional sind, in einem 2D-Raum visualisieren. Die Autoren stellen fest, dass, wenn Dokumente, die von Menschen und LLMs geschrieben wurden, in Stil-Embeddings umgewandelt werden, wie Sie in der Abbildung oben sehen können, alle Dokumente, die demselben LLM entsprechen, im Embedding-Raum voneinander getrennt werden können! Das bedeutet, dass insgesamt alle Dokumente, die vom selben LLM geschrieben wurden, stilistisch näher beieinander liegen als solche, die von verschiedenen LLMs oder von LLMs und Menschen geschrieben wurden.
Dieses Ergebnis gab uns die Zuversicht, dass ein Klassifikator, der die Quelle LLM identifizieren kann, möglich ist.
Unser Modell identifiziert mit einer Genauigkeit von 93 % die richtige LLM-Familie, aus der ein KI-generierter Text stammt. Nachstehend finden Sie die Verwechslungsmatrix, die zeigt, wie oft unser Modell jede LLM-Familie korrekt identifiziert (diagonale Zellen) und wie oft es eine LLM mit einer anderen verwechselt (nicht-diagonale Zellen). Je dunkler die Farbe, desto mehr Vorhersagen fallen in diese Zelle. Ein perfektes Modell hätte nur entlang der Diagonale dunkle Quadrate und überall sonst weiße Quadrate.

Einige interessante Beobachtungen zu unserer Verwechslungsmatrix:
Verwechslungen treten häufiger zwischen Modellfamilien auf. Beispielsweise wird GPT-4 häufig mit der OpenAI-Reasoning-Serie verwechselt. Das ist nachvollziehbar, da GPT-4 wahrscheinlich eine Komponente oder ein Ausgangspunkt für die Reasoning-Modelle von OpenAI ist!
Das Modell verwechselt LLMs häufiger mit „Sonstige“ als mit bestimmten LLMs. Dies zeigt, dass das Modell in Fällen, in denen es sich nicht sicher ist, eher auf „Sonstige“ zurückgreift, als sich auf ein bestimmtes LLM festzulegen.
Der LLM-Klassifikator ist zwar nicht perfekt, aber oft genau. Und was am wichtigsten ist: Wenn der LLM-Klassifikator falsch liegt, verwechselt er bestimmte KI-Systeme mit anderen KI-Systemen, verwechselt aber nicht die Ergebnisse von KI-Systemen mit echten menschlichen Texten.
Wir hielten es aus mehreren Gründen für wichtig, über die KI-Erkennung hinauszugehen und auch die KI-Identifizierung zu lösen.
Erstens glauben wir, dass es hilfreich ist, dem Modell beizubringen, die Schreibstile verschiedener LLMs zu unterscheiden, was eine schwierigere Aufgabe ist als nur zu erkennen, ob etwas KI ist oder nicht, um die Leistung des KI-Detektors selbst zu verbessern. Indem wir vom Modell verlangen, über das Übliche hinauszugehen, erwirbt es in gewisser Weise fortgeschrittene Fähigkeiten und latentes Wissen, das ihm hilft, KI-generierte Texte mit höherer Genauigkeit zu erkennen.
Die Interpretierbarkeit ist ein weiterer Grund, warum wir die Ergebnisse des LLM-Klassifikators anzeigen möchten. Wir möchten Vertrauen schaffen, dass das Modell tatsächlich weiß, was es tut, und nicht nur zufällige Vermutungen anstellt (wie viele andere Zufallsdetektoren). Indem wir nicht nur den KI-Score anzeigen, sondern auch, aus welchem LLM der Text stammt, hoffen wir, Vertrauen in die Fähigkeit des Modells zu schaffen, die Nuancen des KI-Schreibstils zu verstehen.
Schließlich möchten wir Muster im Zeitverlauf entdecken: Welche LLMs werden in der Praxis verwendet und mit welcher Häufigkeit? Welche LLMs bevorzugen Studenten, Betrüger und Programmierer? Das sind die Fragen, auf die wir nun in zukünftigen Studien Antworten finden können.
Wir hoffen, dass Ihnen unsere KI-Identifizierungsfunktion gefällt und dass sie Ihnen dabei hilft, die angeborenen Persönlichkeiten und Stile der verschiedenen LLM-Familien besser zu verstehen. Für weitere Informationen wenden Sie sich bitte an info@pangram.com!
