Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
TLDR; Wissenschaftler und Content-Moderatoren sollten ihre Bewertungen von KI-Erkennungs-Tools oder KI-Prüfprogrammen neu bewerten. Der zuvor im Jahr 2023 aus wissenschaftlichen Arbeiten und populären Medien gebildete Konsens ist veraltet. Die neuesten KI-Erkennungsmodelle wie Pangram haben nicht nur zu den neuesten LLMs aufgeholt, sondern werden auch als zukunftssicher entwickelt.
Als ChatGPT im Jahr 2022 auf den Markt kam, strömten Autoren und Content-Ersteller zu diesem neuen Tool für künstliche Intelligenz, um damit Inhalte zu erstellen. Seitdem hat sich daran nichts geändert. Die Ersteller nutzten ChatGPT (und andere KI-Modelle) und dessen Konkurrenten, um alles Mögliche zu schreiben, von umfangreichen Dokumenten wie Forschungsarbeiten und Romanen bis hin zu kurzen Texten wie E-Mails, Reddit-Kommentaren und Amazon-Rezensionen. KI-generierte Inhalte überschwemmten das Internet. Seit der Einführung von LLMs besteht jedoch die Forderung, zwischen menschlich verfassten und KI-verfassten Texten zu unterscheiden. OpenAI erkannte diesen Bedarf und entwickelte ein Produkt, das Texte als KI klassifiziert. Mit der zunehmenden Verbreitung von KI stieg auch die Nachfrage nach KI-Detektoren oder -Klassifikatoren, insbesondere an Schulen und Universitäten, wo akademische Integrität von größter Bedeutung ist. Einige Studenten (die oft zu den Early Adopters gehören) nutzten die neuesten Modelle, um Aufgaben zu erledigen, Tests zu absolvieren und sich für ein Studium zu bewerben. Einige Forscher, die unter Zeitdruck standen, nahmen Abkürzungen und reichten KI-geschriebene oder KI-unterstützte Arbeiten für Veröffentlichungen ein. Daher wurden viele Tools auf den Markt gebracht, in der Hoffnung, diese Probleme zu lösen. Etablierte Anbieter von akademischer Software wie TurnItIn brachten im April 2023 ein Tool namens AI Checker auf den Markt, um bestehende Kunden aus dem Bildungsbereich anzusprechen. Grammarly brachte 2024 ebenfalls ein eigenes Tool namens Grammarly Authorship auf den Markt. Die vorherrschende Meinung dieser Unternehmen war, dass ihre Tools, wenn sie Plagiate identifizieren können, auch KI identifizieren sollten. Insbesondere im Hochschulbereich musste ein Übergang von „Plagiatsprüfern” zu „KI-Prüfern” erfolgen. Es war jedoch schon früh klar, dass dies nicht funktionieren würde.
Frühe KI-Detektoren versprachen Genauigkeit durch die Verwendung von Perplexität und Burstiness. Bradley Emi, CTO von Pangram, erklärt diese Begriffe:„Perplexität beschreibt, wie unerwartet oder überraschend jedes Wort in einem Text ist. Burstiness ist die Veränderung der Perplexität im Verlauf eines Dokuments. Wenn einige überraschende Wörter und Phrasen im gesamten Dokument verstreut sind, hat es eine hohe Burstiness.“
Wir wollen uns nicht mit diesen Begriffen aufhalten, aber wenn man sich bei der Entwicklung eines KI-Erkennungswerkzeugs zu sehr auf diese Faktoren stützt, führt dies zu drei immer wiederkehrenden Mängeln:
Dies sind insbesondere für akademische Einrichtungen echte Probleme. Die Last, Studenten und Forscher fälschlicherweise zu beschuldigen, KI in ihren Studien und Arbeiten zu verwenden, ist enorm. Es kann Karrieren ruinieren. Es ist unglaublich riskant, sich auf Tools zu verlassen, die selbst bei einer Effektivität von 95 % KI herausfiltern. Daher unterstützen viele renommierte akademische Einrichtungen wie das MIT, Vanderbilt und die UC Berkeley ihre Lehrkräfte nicht bei der Verwendung von KI-Detektoren. In vielen Fällen verwiesen sie auf spezifische Forschungsarbeiten, in denen die schlechte Leistung von KI-Detektoren beschrieben wurde, wie z. B. „Testing of Detection Tools for AI-Generated Text”(Test von Erkennungswerkzeugen für KI-generierte Texte), und auf Fachartikel wie „Why AI writing detectors don't work” (Warum KI-Sch reibdetekt oren nicht funktionieren).
OpenAI empfand diese Probleme als so schwierig, dass sie im Juli 2023 ihren KI-Textklassifikator aufgaben und erklärten, dass „der KI-Klassifikator aufgrund seiner geringen Genauigkeit nicht mehr verfügbar ist“. Viele Schulverwaltungen kamen zu dem Schluss: Wenn OpenAI es nicht schafft, ist es wahrscheinlich unmöglich.
Während führende Universitäten und die breite Öffentlichkeit zu dem Konsens gelangten, dass die Versprechen der KI-Erkennung unmöglich oder sogar Scharlatanerie seien, erzielten Unternehmen wie Pangram Labs bedeutende Verbesserungen in diesem Bereich, die die KI-Erkennung zu einem wichtigen Werkzeug in Universitäten und Unternehmen machen.
Die KI-Erkennung wird oft als Wettrüsten zwischen Schülern, die nach Abkürzungen suchen, und Pädagogen, die herausfiltern wollen, was von Menschen geschrieben wurde und was nicht, bezeichnet. Im Jahr 2025 haben die Detektoren den Einsatz erhöht.
Im August 2025 veröffentlichten zwei Forscher der Chicago Booth, Brian Jabarian und Alex Emi, einen Artikel mit dem Titel Künstliches Schreiben und automatisierte Erkennung, in dem sie feststellten, dass „die meisten kommerziellen KI-Detektoren bemerkenswert gut funktionieren, wobei insbesondere Pangram eine Falsch-Positiv-Rate und eine Falsch-Negativ-Rate von nahezu Null erreicht”. Sie bezeichnen Pangram als „den einzigen Detektor, der strenge Richtlinien (Falsch-Positiv-Rate ≤ 0,005) erfüllt, ohne die Fähigkeit zur genauen Erkennung von KI-Text zu beeinträchtigen”. Dies ist ein Beispiel dafür, wie weit die KI-Erkennung in wenigen Jahren gekommen ist. Aber wie ist es dazu gekommen?
Erstens haben KI-Forscher die Datensätze verbessert, indem sie eine größere Bandbreite an menschlichen Texten und KI-generierten Texten gesammelt haben. Dazu gehören nicht nur wissenschaftliche Arbeiten, sondern auch andere Texte wie E-Mails und Artikel. Zweitens haben Entwickler aktives Lernen eingesetzt, um die Falsch-Positiv-Rate zu reduzieren. Das bedeutet, dass sie die Texte suchen, die am schwierigsten als KI- oder menschlich zu klassifizieren sind, und diese dann wieder in ihre Modelle integrieren.
Und im Wettrüsten haben die Entwickler generischer KI nicht ausreichend reagiert, um einige KI-Detektoren zu umgehen. Als OpenAI sein viel gepriesenes GPT-5 veröffentlichte, versprach es weniger Halluzinationen, einen verbesserten Tonfall und kreativeres Schreiben. Innerhalb von 12 Stunden veröffentlichte Max Spero, Mitbegründer von Pangram Labs, auf LinkedIn, dass das KI-Erkennungstool von Pangram ohne zusätzliches Training GPT-5-Tests mit einer ähnlichen Rate wie frühere Modelle klassifizieren konnte:
„Pangram ist der einzige KI-Detektor, der GPT-5 zuverlässig erkennen kann, ohne dafür explizit trainiert worden zu sein.“
Es gibt echte Bedenken hinsichtlich der Verwendung von KI-Detektoren. Viele von ihnen weisen immer noch alarmierend hohe Falsch-Positiv-Raten auf und werben fälschlicherweise mit ihrer Genauigkeit. Einige der neuesten Technologien sind jedoch unglaublich zuverlässig und werden aktiv in Unternehmen und Universitäten integriert. So hat beispielsweise das Expertenvermittlungsunternehmen Qwoted kürzlich KI-Erkennung in seinen Workflow integriert, um KI-generierte Zitate von „Experten” zu reduzieren. „Die Zukunft des Journalismus hängt vom Vertrauen ab. Deshalb freuen wir uns sehr über die Partnerschaft mit Pangram, das den Goldstandard für KI-Erkennung und -Zuordnung gesetzt hat.”
Auch Forscher und Journalisten kehren zurück. Langjährige Kritiker ändern ihre Meinung und suchen nach Möglichkeiten, die KI-Erkennung in eine umfassendere KI-Politik zu integrieren. Rob Waugh von Press Gazette empfahl kürzlich Pangram für Nutzer, die KI-generierte Texte erkennen möchten. „Solche Tools sind nicht zu 100 % zuverlässig, aber Pangram wurde im Vergleich zu anderen Online-KI-Prüfprogrammen als genau bewertet und ist in Journalisten-Antwortdienste wie Qwoted integriert, um KI-generierte Pitches und Texte zu erkennen.“
Wir sind daran interessiert, Ihren Anwendungsfall zu besprechen und zu erfahren, ob Pangram für Ihr Unternehmen von Nutzen sein könnte. Testen Sie uns und kontaktieren Sie uns bezüglich unserer Angebote für Unternehmen.
