Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Da künstliche Intelligenz immer weiter verbreitet ist, möchten Lehrer erkennen können, ob Schüler KI nutzen, um ihre Hausaufgaben für sie zu schreiben. Ein KI-Detektor für Lehrer scheint die naheliegende Lösung zu sein, doch viele zögern. Was passiert, wenn die Software einen Fehler macht?
Diese Sorge ist berechtigt. Bislang waren KI-Detektoren relativ unzuverlässig. Zahlreiche Studien haben gezeigt, dass diese Tools oft nicht erkennen können, ob ein Textbeispiel von einer KI erstellt wurde, und dass ein entschlossener Betrüger sie durch leichte Umformulierungen oder Rechtschreibfehler austricksen kann. Diese falschen Negativbefunde sind problematisch genug, da sie es ermöglichen, dass einige computergenerierte Texte unentdeckt bleiben.
Noch beunruhigender ist jedoch die hohe Fehlalarmquote der Früherkennungsgeräte. Diese treten auf, wenn ein Text, der tatsächlich von einem Menschen verfasst wurde, als KI-Text markiert wird. Dies führt zu Stress und ungerechtfertigten Disziplinarmaßnahmen für Schüler, die nichts falsch gemacht haben, zu unnötigen Kontrollen durch Lehrer und zu einem Vertrauensverlust in der Schule.
Das Problem ist besonders akut bei Studierenden, deren Muttersprache nicht Englisch ist. Mehrere KI-Erkennungswerkzeuge zeigen eine Voreingenommenheit gegenüber Nicht-Muttersprachlern. Eine Studie der Stanford University aus dem Jahr 2023 ergab, dass mehrere Detektoren einstimmig (und fälschlicherweise) jeden fünften Aufsatz, der von einem Nicht-Muttersprachler verfasst wurde, als KI-generiert identifizierten. Fast alle wurden von mindestens einem der Detektoren fälschlicherweise markiert.
Die meisten gängigen KI-Detektoren geben zu, dass sie solche Fehler relativ häufig machen. TurnItIn beispielsweise gibt eine Falsch-Positiv-Rate von etwa 1 zu 200 an, was bedeutet, dass von 200 Arbeiten, die ein Lehrer durchlaufen lässt, die Originalarbeit eines Studenten fälschlicherweise als KI-generiert markiert wird. Andere Tools geben Falsch-Positiv-Raten zwischen 1 zu 500 und 1 zu 100 an, während unabhängige Studien ergeben haben, dass die Zahlen sogar noch höher liegen können.
Die Falsch-Positiv-Rate von Pangram hingegen liegt bei nur 1 zu 10.000, gemessen anhand von Tests mit mehreren Millionen Dokumenten. Unser Modell ist besonders zuverlässig, wenn es um Texte mit mehr als einigen hundert Wörtern geht, die in vollständigen Sätzen geschrieben sind – genau die Art von Texten, die Studenten normalerweise für große Hausarbeiten einreichen.
Wenn ein KI-Detektor einen Text als KI-generiert kennzeichnet, hat ein Lehrer mehrere Möglichkeiten, um das Ergebnis zu bestätigen. Zunächst sollte er den Schüler einfach nach der Verwendung von KI fragen und dabei mit Bescheidenheit an das Gespräch herangehen. Wenn das Ergebnis tatsächlich ein Fehler war, kann der Schüler möglicherweise Beweise für seinen Schreibprozess vorlegen, wie z. B. eine lückenlose Überarbeitungshistorie in Google Docs oder Kopien früher Entwürfe. In diesem Fall können Lehrer anerkennen, dass sie wahrscheinlich einen äußerst seltenen Fehlalarm gefunden haben. Der Schüler sollte auch in der Lage sein, seinen Schreibprozess im Detail zu erläutern. Dieses Gespräch könnte ein tiefes Verständnis für die eingereichte Arbeit vermitteln und darauf hindeuten, dass der Schüler sie tatsächlich selbst geschrieben hat. Andererseits könnte es auch zeigen, dass der Schüler KI in einer Weise verwendet hat, von der er nicht wusste, dass sie falsch ist, was die Ergebnisse des Detektors bestätigen würde.
Wenn der Schüler weiterhin darauf besteht, dass er keine KI verwendet hat, aber keinen Beweis dafür liefern oder seine Arbeit nicht sinnvoll erläutern kann, ist es dennoch in Ordnung, ihm den Vorteil des Zweifels zu geben. Schließlich wäre es unglaublich schädlich, wenn er für etwas bestraft würde, das er nicht getan hat. In diesem Fall können Lehrer die Schüler anweisen, künftig Aufzeichnungen über ihren Schreibprozess zu führen, um weitere Missverständnisse auszuräumen. Wenn der Schüler wissentlich über die Verwendung von KI lügt, wird er es sich in Zukunft wahrscheinlich zweimal überlegen, bevor er dies tut. Wenn seine Arbeit jedoch weiterhin von einem genauen KI-Detektor wie Pangram gemeldet wird, ist es wahrscheinlich an der Zeit, die Situation zu eskalieren. Die Wahrscheinlichkeit eines Fehlers ist bereits gering, die Wahrscheinlichkeit mehrerer Fehler ist verschwindend gering.
