Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Der Stand der akademischen Integrität und KI-Erkennung 2025

Schicksal Akinode
4. Dezember 2025

Bradley Emi, CTO von Pangram Labs, hielt auf der ICAI-Konferenz einen Vortrag über den Stand der KI-Erkennung.

Studierende nutzen ChatGPT sowohl sinnvoll als auch missbräuchlich. Die meisten Studierenden verwenden KI-Tools regelmäßig und glauben, dass sich ihre Leistungen durch diese Tools verbessern werden. Selbst wenn es klare Richtlinien gegen die Verwendung von KI gibt, werden die Studierenden diese Tools wahrscheinlich weiterhin nutzen.

Entgegen der landläufigen Meinung: KI kann erkannt werden. Die Sprache, der Stil und die semantischen Entscheidungen können sowohl von Menschen als auch von automatisierter Software (mit ausreichendem Training) erkannt werden.

Warum klingt KI so?

LLMs sind Wahrscheinlichkeitsverteilungen, die anhand großer Datenmengen lernen. Sie sind NICHT der Durchschnitt aller menschlichen Texte. Dies liegt an der Art und Weise, wie die Modelle trainiert werden.

Modelle werden in drei Phasen trainiert: Vortraining, Instruction Tuning und Alignment.

In der Vorbereitungsphase analysiert das Modell statistische Muster aus einem großen Datensatz. Der Trainingsdatensatz enthält Verzerrungen, die sich in den statistischen Mustern zeigen. Beispielsweise sind Daten, die häufig im Internet erscheinen, überrepräsentiert. In einem Artikel der Zeitung „The Guardian“ erklärt Alex Hern, wie Arbeiter in Kenia und Nigeria ausgebeutet wurden, um Trainingsdaten für OpenAI zu liefern. Die Wörter, die diese Arbeiter häufig verwendeten, wie „delve“ (vertiefen) und „tapestry“ (Wandteppich), sind dieselben Wörter, die häufig in KI-generierten Texten vorkommen.

Beim Instruction Tuning wird das Modell darauf trainiert, auf Eingaben zu reagieren. Das Modell lernt, dass es besser ist, Anweisungen zu befolgen, als genaue, korrekte Informationen zu liefern. Selbst wenn Sicherheitsfilter implementiert sind, plagen Falschinformationen weiterhin das KI-Schreiben, da es versucht, den Nutzer zufrieden zu stellen.

Während der Ausrichtung lernt das Modell den Unterschied zwischen guten und schlechten Antworten auf Aufforderungen. Präferenzdaten können extrem voreingenommen sein, da sie auf den Ansichten des Trainers basieren und nicht unbedingt auf Fakten.

Wir haben eine Auswahl der häufigsten Wörter und Ausdrücke zusammengestellt, die beim KI-Schreiben verwendet werden. Diese stammen aus Vorurteilen, die in der Vorbereitungsphase eingeführt wurden.

KI ist bekannt für ihre stark strukturierte Sprache und Formatierung. Übergangsphrasen, Aufzählungslisten und ein ordentlicher Schreibstil sind aufgrund der Ausrichtungsphase in KI-Texten weit verbreitet.

KI-Texte sind oft formell, da formelle Texte im Internet überrepräsentiert sind und somit auch in KI-Trainingsdatensätzen überrepräsentiert sind. Positivität und Hilfsbereitschaft werden während der Ausrichtung verstärkt.

Hinweis: Pangram sagt die Verwendung von KI nicht allein aufgrund der Tatsache voraus, dass ein Text gängige KI-Sprache und -Formatierungen enthält.

Humanisierer in der Wissenschaft

Wir haben 19 verschiedene Humanizer-Tools untersucht und ein eigenes entwickelt. Dabei haben wir festgestellt, dass KI-Humanizer die ursprüngliche Bedeutung in unterschiedlichem Maße bewahren (von geringfügigen Änderungen bis hin zu unverständlichem Text). Einige Humanizer leisten gute Arbeit beim Paraphrasieren, können jedoch einer Erkennung nicht entgehen. Je flüssiger ein humanisierter Text ist, desto weniger wahrscheinlich ist es, dass er einer Erkennung entgeht. Humanizer sind in der Lage, das SynthID-Wasserzeichen von Google (das zur Kennzeichnung von Gemini-generiertem Text verwendet wird) zu entfernen.

Automatisierte und menschliche KI-Erkennung

Die erste Generation von KI-Erkennungswerkzeugen und ihre Mängel haben die Meinung der Öffentlichkeit über die KI-Erkennung geprägt. Diese Werkzeuge stützten sich eher auf Korrelationen zum KI-Einsatz als auf kausale Signale. Sie behaupteten eine Genauigkeit von 99 %, was für den akademischen Gebrauch ungeeignet ist.

Diese neue Generation von Erkennungswerkzeugen zeichnet sich durch eine Genauigkeit von über 99,9 % und sehr niedrige Falsch-Positiv-Raten (FPRs) aus! Außerdem sind sie robust gegenüber Paraphrasierern und Humanisierern.

Allerdings sind KI-Detektoren nicht alle gleich! Aufgrund der unterschiedlichen Trainingsmethoden der Detektoren gibt es verschiedene Genauigkeitsgrade.

Pangram, TurnItIn und Ghostbusters verwenden lernbasierte Erkennung. Bei der lernbasierten Erkennung wird das Modell trainiert, indem es anhand einer großen Stichprobe lernt, was KI-generiert ist und was nicht. Während das

Menschliche Experten, die Erfahrung mit der Verwendung von LLMs für Schreibaufgaben haben, können KI mit einer Genauigkeit von 92 % erkennen. Linguisten konnten ohne Erfahrung mit Tools wie ChatGPT nicht das gleiche Maß an Genauigkeit erreichen. Menschliche Detektoren sind in der Lage, zu erläutern, warum sie eine bestimmte Vorhersage in Bezug auf einen Text getroffen haben. Pangram hat zwar eine höhere Genauigkeit und weniger Fehlalarme, ist jedoch nicht in der Lage, den Text in einen Kontext zu setzen.

Aufbau eines fairen Verfahrens zur Wahrung der akademischen Integrität im Bereich der KI

Bei der Erstellung von Richtlinien oder Standards für den Einsatz von KI muss die Kommunikation klar sein. KI kann zum Verfassen von Entwürfen, zum Generieren von Ideen, zum Korrigieren von Grammatikfehlern, für Recherchen, zum Verfassen von Entwürfen oder für umfangreiche Schreibaufgaben verwendet werden. Es müssen Richtlinien darüber eingeführt werden, in welchem Umfang der Einsatz von KI zulässig ist und in welchem nicht.

Schüler und Lehrer müssen verstehen, wie sich gängige Tools mit KI weiterentwickeln. Die Funktion „Help me write“ (Hilf mir beim Schreiben) von Google Docs bezieht ihre Ergebnisse von Gemini. Grammarly umfasst derzeit KI-Generierung und Paraphrasierung. Übersetzungstools verwenden möglicherweise LLMs, um zu funktionieren. Das Übernehmen von Abschnitten aus KI-generierten Recherchen oder Brainstormings löst ebenfalls eine Erkennung aus.

Wir empfehlen, sowohl menschliches Urteilsvermögen als auch automatisierte Erkennung einzusetzen. Es ist gegenüber den Studierenden äußerst unfair, ihre Arbeiten ausschließlich mit KI-Erkennung zu bewerten, da die FPR bei 0,01 % liegt. Nach Erhalt einer positiven Vorhersage sollten als nächste Schritte der Schreibprozess der Studierenden bewertet und der positive Text mit ihren früheren Arbeiten verglichen werden. Testen Sie den Detektor unbedingt mit einigen Texten und berücksichtigen Sie die Ergebnisse, die Sie bei der Verwendung eines LLM für die Aufgabe erhalten könnten.

Wenn sich zunehmend herausstellt, dass ein Schüler eine von KI verfasste Hausarbeit eingereicht hat, kann dies eine lehrreiche Gelegenheit sein. Es ist wichtig, die Schüler mit Respekt zu behandeln und übermäßig strenge Strafen zu vermeiden. Die Schüler können davon profitieren, wenn sie die Hausarbeit nachholen und darüber sprechen, was zum Einsatz von KI geführt hat.

Weitere Informationen zu diesem Artikel finden Sie im vollständigen Webinar: https://www.pangram.com/resources/the-state-of-ai-detection-in-2025.

Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.