Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Einer der wichtigsten Durchbrüche bei großen Sprachmodellen im Jahr 2025 war der Aufstieg von Schlussfolgerungsmodellen. Dabei handelt es sich um Modelle, die umgangssprachlich gesagt gelernt haben, vor dem Sprechen zu denken.
Ein Schlussfolgerungsmodell entspricht einem normalen LLM, mit dem Unterschied, dass diese Modelle zusätzlich zur Erzeugung von Ausgabetoken auch darauf trainiert sind, Denktoken oder Schlussfolgerungstoken zu erzeugen. In der Denkphase versucht das Modell, komplexe Aufgaben zu durchdenken, indem es verschiedene Ansätze ausprobiert und sich selbst hinterfragt, bevor es eine Antwort gibt. In der Praxis zeichnen sich diese Modelle durch ihre Problemlösungsfähigkeit aus, insbesondere in den Bereichen Mathematik und Programmierung, und schneiden in Benchmark-Tests weit überdurchschnittlich gut ab.
Reasoning-Modelle führen vor dem Sprechen eine sogenannte „Gedankenkette“ durch. Hier ist ein Beispiel dafür, wie das aussieht, aus Deepseek-R1, dem einzigen Reasoning-Modell, das derzeit die „Gedanken“ des Modells öffentlich macht.
Beispiel für die Gedankenkette von Deepseek R1
In diesem Beispiel überlegt Deepseek zunächst, was der Benutzer möchte, bevor es Tokens ausgibt. Dadurch kann es die bestmögliche Ausgabe logischer organisieren und durchdenken.
Mehrere Anbieter haben Schlussfolgerungsmodelle entwickelt, die eine Leistung auf dem neuesten Stand der Technik erzielen.
Die Argumentationsmodellreihe von OpenAI heißt O-Serie. Die derzeit verfügbaren Modelle sind o1, o1-mini, o3, o3-pro und o4-mini. o3-pro ist das leistungsfähigste dieser Modelle.
Anthropic hat die neuesten Versionen von Claude um Denkfähigkeiten erweitert. Claude 4 Opus und Claude 4 Sonnet verfügen beide über einen „erweiterten Denkmodus”, der es ihnen ermöglicht, vor der Beantwortung einer Frage zu überlegen.
Die Gemini 2.5-Modellreihe von Google nutzt nun einen internen Denkprozess und umfasst auch Schlussfolgerungsmodelle. Gemini 2.5 Pro, Gemini 2.5 Flash und Gemini 2.5 Flash-Lite verfügen alle über Denkfähigkeiten.
Deepseek R1 war das erste Open-Source-Modell für logisches Denken und wurde vom chinesischen Unternehmen Deepseek veröffentlicht. Im Gegensatz zu anderen kommerziellen Closed-Source-Modellen kann man bei Deepseek neben dem Endergebnis auch die Gedankengänge des Modells nachvollziehen.
Darüber hinaus hat ein weiteres chinesisches Unternehmen, Qwen, ein Denkmodell namens Qwen-QWQ-32B veröffentlicht. Es handelt sich um ein kleineres Schlussfolgerungsmodell, das in einer größeren Vielfalt von Kontexten eingesetzt werden kann als Deepseek R1.
Wir haben kürzlich ein Update für das Pangram-KI-Erkennungsmodell veröffentlicht, das die Leistung von Schlussfolgerungsmodellen insgesamt verbessert.
| Modell | Pangram (alt) | Pangram (Veröffentlichung im Juli) |
|---|---|---|
| OpenAI o1 | 99.86% | 100% |
| OpenAI o1-mini | 100% | 100% |
| OpenAI o3 | 93.4% | 99.86% |
| OpenAI o3-pro | 93.9% | 99.97% |
| OpenAI o3-mini | 100% | 100% |
| OpenAI o4-mini | 99.64% | 99.91% |
| Gemini 2.5 Pro Denken | 99.72% | 99.91% |
| Claude Opus 4 | 99.89% | 99.94% |
| Claude Sonett 4 | 99.89% | 99.91% |
| Deepseek-R1 | 100% | 100% |
| Qwen-QWQ-32b | 100% | 100% |
Die stärkste Leistungssteigerung ist bei o3 und o3-pro zu verzeichnen. Wir haben festgestellt, dass o3 und o3-pro sich deutlich von den zuvor veröffentlichten Modellen von OpenAI unterscheiden und dass unser altes KI-Erkennungsmodell nicht in der Lage war, diese Modelle ebenso gut zu generalisieren, sodass es bei unseren ersten Tests nur eine Trefferquote von 93 % erzielte.
Ein weiteres Problem, mit dem wir konfrontiert waren, ist, dass o3 und o3-pro deutlich teurer sind als ihre Vorgängermodelle, was bedeutet, dass wir mit ihnen nicht in gleichem Umfang Daten generieren können wie mit den anderen Modellen. Erschwerend kam hinzu, dass diese Modelle auch länger laufen, da sie viel Zeit damit verbringen, zu überlegen, bevor sie Output-Token generieren.
Wir haben unsere Trainingsdatensätze mit einer kleinen Menge an o3- und o3-pro-Daten neu generiert. In unserem endgültigen Trainingsdatensatz für die Juli-Veröffentlichung macht o3-Text nur 0,17 % der Trainingsdatenmischung aus, o3-pro-Text nur 0,35 %. Wir haben dies ausgeglichen und auf eine Verallgemeinerung gehofft, indem wir auch den Anteil von o3-mini-Text auf 5 % der Trainingsdaten erhöht haben. Überraschenderweise hat dies sehr gut funktioniert! Mit nur einer geringfügigen Anpassung des Trainingssatzes konnten wir die Recall-Rate von o3 und o3 pro an die Recall-Rate der anderen von uns bewerteten LLMs anpassen, ohne Kompromisse bei den False Positives eingehen zu müssen.
Dieses Verhalten von Pangram, bei dem wir es anhand einer kleinen Stichprobe von Daten aus neuen LLMs trainieren können, die sich qualitativ von ihren Vorgängern unterscheiden, macht Pangram zu einem sogenannten „Few-Shot Learner”. Dieses Verhalten hat weitreichende Auswirkungen: Wenn neue LLMs oder sogar neue LLM-basierte Produkte auf den Markt kommen, die im Hintergrund auf fein abgestimmten LLMs basieren, die möglicherweise unterschiedliche Schreibstile haben, kann sich Pangram schnell und kostengünstig an diese anpassen, ohne dass eine umfangreiche Neugenerierung von Datensätzen erforderlich ist.
Viele Leute fragen uns, warum wir glauben, dass wir dieses „Katz-und-Maus-Spiel“ gewinnen können. Da Pangram ein Few-Shot-Lerner ist, ist es gar nicht so schwer, mit den neuen LLMs mitzuhalten, wie es auf den ersten Blick scheint – wir brauchen Pangram nur ein paar Beispiele zu zeigen, damit es das Muster sehr effizient verallgemeinern und lernen kann. Einfach ausgedrückt ist Pangram äußerst effektiv darin, zu „lernen, wie man lernt”, wie neue LLMs klingen, da es in der Vergangenheit bereits so viele LLMs gesehen hat.
Dies und die Tatsache, dass jedes LLM seinen eigenen, unverwechselbaren Stil hat, hat es Pangram tatsächlich erleichtert, sich an neue LLMs anzupassen, sobald diese veröffentlicht werden, selbst wenn LLMs immer besser und leistungsfähiger werden. Aus unserer Sicht ist die Leistungsfähigkeit eines LLM orthogonal zu seiner Erkennbarkeit.
Wir haben von mehreren Leuten aus KI-Kreisen gehört, dass o3 und o3-pro eine andere Ausstrahlung haben als die anderen LLMs, die wir bisher gesehen haben. Unserer Erfahrung nach sind sie die ersten Modelle seit langer Zeit (seit Claude 2), die Pangram nicht mit einer Zuverlässigkeit von über 99 % im Zero-Shot-Modus erkennt (ohne Daten aus dem Modell zu sehen). Es ist zwar schwierig, genau zu sagen, was sie so besonders macht, aber hier sind einige Hypothesen, warum sie etwas Besonderes sein könnten.
o3 und o3-pro sind für den Einsatz als Tool überoptimiert. Wir wissen, dass Pangram weitgehend KI-generierte Inhalte auf der Grundlage von Verhaltensweisen und Eigenheiten erkennt, die nach dem Training eingeführt wurden. OpenAI erklärt in seinem Blogbeitrag zur Veröffentlichung, dass sich o3 und o3-pro von ihren Vorgängern dadurch unterscheiden, dass sie mithilfe von Reinforcement Learning darauf trainiert wurden, im Rahmen ihres Nach-Trainings-Prozesses Werkzeuge zu verwenden. Dieser Unterschied im Nach-Trainings-Algorithmus könnte sich auch qualitativ auf den Stil der Ergebnisse ausgewirkt haben.
o3 und o3-pro halluzinieren stärker. Laut Nathan Lambert hat o3 ein ungültiges Nicht-ASCII-Zeichen in den Code eingefügt und halluzinierte Aktionen, die es bei der Lösung von Aufgaben unternommen hat, wie z. B. die Halluzination, dass es einen Timing-Code auf einem Macbook Pro ausgeführt hat, das komplett erfunden war. Unabhängige Bewertungen durch METR haben ergeben, dass o3 dazu neigt, „seine Punktzahlen zu manipulieren”, anstatt tatsächlich agentenbezogene Aufgaben zu lösen.
Weitere Informationen zu o3 und o3-pro finden Sie in Nathans Blogbeitrag, Dan Shippers „Vibe Check“ und dem Blogbeitrag von OpenAI zur Veröffentlichung.
Pangram ist in Bezug auf Argumentationsmodelle genauso stark wie alle anderen LLMs, aber o3 und o3-pro scheinen sich in Bezug auf Schreibstil und Tonfall von ihren Vorgängern zu unterscheiden. Im Zuge der Verbesserung der Leistung von Pangram bei o3 und o3-pro haben wir festgestellt, dass wir möglicherweise gar nicht so viele Beispiele aus jedem LLM benötigen, wie wir ursprünglich angenommen hatten, da Pangram ein extrem starker Few-Shot-Lerner ist.
Wir erwägen Änderungen an unserer Trainingsarchitektur und -routine, die die Aktualisierung von Pangram wesentlich schneller und einfacher machen und es uns ermöglichen, KI-Erkennungsmodelle zu liefern, die die neuesten LLMs noch schneller als bisher erkennen können. Bleiben Sie dran für weitere Updates!
