Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Verwenden Autoren LLMs, um Forschungsarbeiten über KI zu verfassen? Lagern Peer-Reviewer das Verfassen ihrer Rezensionen dieser Arbeiten an generative KI-Tools aus? Um dies herauszufinden, haben wir alle 19.000 Arbeiten und 70.000 Rezensionen der International Conference on Learning Representations analysiert, einer der wichtigsten und renommiertesten Publikationsplattformen für KI-Forschung. Dank OpenReview und dem öffentlichen Begutachtungsprozess der ICLR wurden alle Arbeiten und ihre Rezensionen online öffentlich zugänglich gemacht, und dieser offene Begutachtungsprozess ermöglichte diese Analyse.
Wir haben alle Ergebnisse auf iclr.pangram.com öffentlich zugänglich gemacht.
Nun, zum einen wurde uns eine Prämie angeboten!
Graham Neubigs Tweet, in dem er eine Prämie für die Analyse von ICLR-Einreichungen anbietet
Ganz im Ernst: Viele Autoren und Gutachter der ICLR haben einige Fälle von offensichtlichem wissenschaftlichem Fehlverhalten im Zusammenhang mit KI festgestellt, wie beispielsweise eine von einem LLM generierte Arbeit mit völlig erfundenen Referenzen und viele Autoren, die behaupten, vollständig von KI generierte Rezensionen erhalten zu haben.
Ein Autor berichtete sogar, dass ein Gutachter in seiner Peer-Review 40 KI-generierte Fragen gestellt habe!
Wir wollten das Ausmaß dieses Problems insgesamt erfassen: Handelt es sich bei diesen Beispielen für schlechtes Verhalten um Einzelfälle oder sind sie Ausdruck eines größeren Musters? Deshalb haben wir Grahams Angebot angenommen!
ICLR hat eine sehr klare und aussagekräftige Richtlinie darüber, was in Bezug auf die Verwendung von LLM in Artikeln und Rezensionen erlaubt und was nicht erlaubt ist.
Richtlinie 1. Jede Verwendung eines LLM muss offengelegt werden, gemäß den Richtlinien des Ethikkodex, wonach „alle Beiträge zur Forschung anerkannt werden müssen“ und die Mitwirkenden „davon ausgehen können, dass sie für ihre Arbeit Anerkennung erhalten“.
Richtlinie 2. Die Autoren und Gutachter von ICLR tragen die letztendliche Verantwortung für ihre Beiträge und müssen sich an die Ethikrichtlinie halten, wonach „Forscher keine absichtlich falschen oder irreführenden Behauptungen aufstellen, Daten erfinden oder fälschen oder Ergebnisse falsch darstellen dürfen“.
Die ICLR hat auch Richtlinien, die Autoren bei der Verwendung von LLMs in ihren Artikeln und Rezensionen befolgen sollten. Zusammenfassend lässt sich sagen:
Wir führen diese Studie also nicht durch, um einzelne Täter anzuprangern – denn LLM sind sowohl bei der Einreichung von Artikeln als auch im Peer-Review-Prozess tatsächlich zulässig. Stattdessen möchten wir die Aufmerksamkeit auf den Umfang der KI-Nutzung in den Artikeln und im Peer-Review lenken und hervorheben, dass vollständig KI-generierte Reviews (die in der Tat wahrscheinlich gegen den Ethikkodex verstoßen) ein viel weiter verbreitetes Problem sind, als vielen bewusst ist.
Zunächst haben wir alle PDF-Dateien der ICLR-Einreichungen mithilfe der OpenReview-API heruntergeladen. Außerdem haben wir alle Notizen heruntergeladen, wodurch wir die Rezension extrahieren konnten.
Wir haben festgestellt, dass die Verwendung eines regulären PDF-Parsers wie PyMuPDF für die ICLR-Papers nicht ausreichend war, da Zeilennummern, Bilder und Tabellen oft nicht korrekt verarbeitet wurden. Um den Haupttext des Artikels zu extrahieren, haben wir daher Mistral OCR verwendet, um den Haupttext des Artikels aus der PDF-Datei als Markdown zu parsen. Da KI ebenfalls Markdown-Ausgaben bevorzugt, haben wir das Markdown anschließend in einfachen Text umformatiert, um Fehlalarme aufgrund der Formatierung zu vermeiden.
Anschließend haben wir den erweiterten Textklassifikator von Pangram auf den geparsten Klartext aus diesen PDF-Dateien angewendet. Die erweiterte Version des Klassifikators teilt den Text zunächst in Segmente auf und wendet das KI-Erkennungsmodell auf jedes Segment einzeln an. Das Ergebnis ist ein Prozentsatz, der angibt, wie viele Segmente positiv für KI-generierten Text zurückgegeben wurden. Das Ergebnis kann also anzeigen, dass ein Text vollständig von Menschen geschrieben, vollständig von KI generiert oder gemischt ist, wobei einige Segmente positiv und andere negativ zurückgegeben werden.
Wir haben auch die Peer-Reviews für KI mit unserem neuen EditLens-Modell überprüft. EditLens kann nicht nur das Vorhandensein von KI erkennen, sondern auch beschreiben, inwieweit KI am Bearbeitungsprozess beteiligt war. EditLens kann vorhersagen, dass ein Text in eine von fünf Kategorien fällt:
EditLens ist derzeit nur für Kunden in unserer privaten Beta-Version verfügbar, wird aber Anfang Dezember öffentlich zugänglich sein. Wir werden in den kommenden Wochen mehr zu diesem Modell sagen, aber in unserem Forschungsvorabdruck beschreiben wir seine Leistung als state-of-the-art in der co-autorisierten Textgenerierung, und in internen Benchmarks weist es eine ähnliche Genauigkeit wie unser aktuelles Modell auf, wenn es als binärer Klassifikator bewertet wird, sowie eine außergewöhnlich niedrige Falsch-Positiv-Rate von 1 zu 10.000 bei vollständig von Menschen verfassten Texten.
In unserer vorherigen Analyse von AI-Konferenzbeiträgen haben wir festgestellt, dass Pangram bei allen verfügbaren ICLR- und NeurIPS-Beiträgen, die vor 2022 veröffentlicht wurden, eine Falsch-Positiv-Rate von 0 % aufweist. Einige dieser Beiträge sind zwar tatsächlich im Trainingssatz enthalten, aber nicht alle. Daher glauben wir, dass die tatsächliche Testsatzleistung von Pangram tatsächlich sehr nahe bei 0 Prozent liegt.
Wie sieht es mit Peer-Reviews aus? Wir haben ein zusätzliches Negativkontroll-Experiment durchgeführt, bei dem wir das neuere EditLens-Modell auf alle 2022 Peer-Reviews angewendet haben. Wir haben eine Fehlerquote von etwa 1 zu 1.000 bei „leicht bearbeitet“ im Vergleich zu „vollständig menschlich“, eine Fehlerquote von 1 zu 5.000 bei „mittel bearbeitet“ im Vergleich zu „vollständig menschlich“ und eine Fehlerquote von 1 zu 10.000 bei „stark bearbeitet“ im Vergleich zu „vollständig menschlich“ festgestellt. Wir haben keine Verwechslungen zwischen „vollständig KI-generiert“ und „vollständig menschlich“ festgestellt.
Verteilung der EditLens-Vorhersagen zu den ICLR 2022-Bewertungen (Negativkontrolle)
Für das Experiment selbst haben wir Pangram auf alle Artikel und Peer-Reviews angewendet. Hier sind die wichtigsten Ergebnisse:
Wir haben festgestellt, dass 21 % oder 15.899 Bewertungen vollständig von KI generiert wurden. Wir haben festgestellt, dass mehr als die Hälfte der Bewertungen in irgendeiner Form KI-gestützt waren, entweder durch KI-Bearbeitung, KI-Unterstützung oder vollständige KI-Generierung.
Verteilung der EditLens-Vorhersagen zu den ICLR-2026-Bewertungen
Papierbeiträge hingegen werden nach wie vor überwiegend von Menschen verfasst (61 % wurden überwiegend von Menschen verfasst). Wir haben jedoch mehrere hundert vollständig KI-generierte Beiträge gefunden, auch wenn diese offenbar Ausreißer sind, und 9 % der Beiträge enthielten mehr als 50 % KI-Inhalte. Als Vorbehalt sei angemerkt, dass einige vollständig KI-generierte Beiträge bereits abgelehnt und aus OpenReview entfernt worden waren, bevor wir die Möglichkeit hatten, die Analyse durchzuführen.
Verteilung von KI-Inhalten in den eingereichten Beiträgen für die ICLR 2026
Wir haben einige interessante Trends in den Ergebnissen festgestellt, die Aufschluss darüber geben, wie KI sowohl bei der Einreichung von Beiträgen als auch bei Peer-Reviews eingesetzt wird und welche Auswirkungen dieser Einsatz auf den Begutachtungsprozess selbst hat.
Im Gegensatz zu einer früheren Studie, die zeigte, dass LLMs als Richter oft ihre eigenen Ergebnisse gegenüber menschlichen Texten bevorzugen, haben wir das Gegenteil festgestellt: Je mehr KI-generierte Texte in einer Einreichung enthalten sind, desto schlechter sind die Bewertungen.
Durchschnittliche Bewertungsergebnisse nach KI-Inhalten in Artikeln
Dafür könnte es mehrere Gründe geben. Einer davon ist, dass je mehr KI in einer Arbeit verwendet wird, desto weniger durchdacht und gut ausgeführt ist die Arbeit insgesamt. Es ist möglich, dass KI in wissenschaftlichen Arbeiten häufiger zum Auslagern und Abkürzen verwendet wird als als zusätzliche Hilfe. Darüber hinaus deuten vollständig KI-generierte Artikel, die niedrigere Bewertungen erhalten, möglicherweise darauf hin, dass KI-generierte Forschung (noch) von geringer Qualität ist und keinen echten Beitrag zur Wissenschaft leistet.
Durchschnittliche Bewertungsergebnisse nach Grad der KI-Beteiligung
Wir stellen fest, dass die Bewertung umso höher ausfällt, je stärker KI in einer Rezension präsent ist. Das ist problematisch: Es bedeutet, dass die Rezensenten nicht ihre eigene Meinung mithilfe von KI neu formulieren (in diesem Fall wäre die durchschnittliche Bewertung für KI-Rezensionen und menschliche Rezensionen gleich), sondern dass sie die Beurteilung des Artikels ebenfalls an die KI auslagern. Die Meinung des LLM als die tatsächliche Meinung des Gutachters darzustellen, ist ein klarer Verstoß gegen den Ethikkodex. Wir wissen, dass KI dazu neigt, unterwürfig zu sein, was bedeutet, dass sie Dinge sagt, die Menschen hören wollen und die ihnen gefallen, anstatt eine unvoreingenommene Meinung zu äußern: eine völlig unerwünschte Eigenschaft, wenn es um Peer-Reviews geht! Dies könnte die positive Verzerrung der Bewertungen bei KI-Gutachten erklären.
Durchschnittliche Bewertungslänge nach Grad der KI-Beteiligung
Früher bedeutete eine längere Rezension, dass sie gut durchdacht und von höherer Qualität war, aber im Zeitalter der LLMs kann dies oft das Gegenteil bedeuten. KI-generierte Rezensionen sind länger und enthalten viel „Füllinhalt”. Laut Shaib et. al. in einer Forschungsarbeit mit dem Titel „Measuring AI Slop in Text” ist eine Eigenschaft von KI-„Slop”, dass er eine geringe Informationsdichte aufweist – was bedeutet, dass die KI viele Wörter verwendet, um inhaltlich nur sehr wenig zu sagen.
Wir finden, dass dies auch in den LLM-Bewertungen zutrifft: KI verwendet viele Wörter, gibt aber nicht wirklich sehr informationsreiches Feedback. Wir halten dies für problematisch, da Autoren Zeit damit verschwenden müssen, eine lange Bewertung zu analysieren und nichtssagende Fragen zu beantworten, die eigentlich kaum hilfreiches Feedback enthalten. Erwähnenswert ist auch, dass die meisten Autoren wahrscheinlich ein großes Sprachmodell um eine Bewertung ihres Beitrags bitten werden, bevor sie ihn tatsächlich einreichen. In diesen Fällen ist das Feedback einer LLM-Bewertung weitgehend redundant und wenig hilfreich, da der Autor die offensichtlichen Kritikpunkte, die ein LLM anbringen wird, bereits kennt.
Die Falsch-Positiv-Rate von Pangram ist zwar extrem niedrig, aber dennoch nicht gleich Null. Daher sind wir verpflichtet, die Zuverlässigkeit des Tools zu quantifizieren, bevor wir es für konkrete Entscheidungen über das Schicksal eines Artikels (z. B. eine Ablehnung ohne Begutachtung) oder für Sanktionen gegen einen Peer-Reviewer empfehlen. Wir haben die Falsch-Positiv-Rate innerhalb des Domänenbereichs anhand der oben beschriebenen Negativkontrollstudien direkt gemessen, aber wie sieht es mit anderen Datensätzen, Benchmarks und allgemeinen Texten aus?
Wir haben die Falsch-Positiv-Rate von Pangram in diesem früheren Blogbeitrag dokumentiert.
Die Genauigkeit von Pangram wurde auch durch mehrere unabhängige Studien bestätigt, darunter kürzlich durch Studien der UChicago Booth und der American Association for Cancer Research.
Um diese Zahlen in einen Zusammenhang zu bringen: Die Falsch-Positiv-Rate von Pangram ist vergleichbar mit der Falsch-Positiv-Rate von DNA-Tests oder Drogentests: Ein echtes Falsch-Positiv, bei dem ein vollständig KI-generierter Text mit einem vollständig von Menschen verfassten Text verwechselt wird, ist zwar nicht gleich Null, aber äußerst selten.
Wenn Sie als Autor vermuten, dass Sie eine KI-generierte Rezension erhalten haben, gibt es mehrere verräterische Anzeichen, auf die Sie achten können. Pangram kann zwar KI-generierte Texte erkennen, aber Sie können die Anzeichen für KI-Rezensionen auch mit bloßem Auge erkennen.
Wir haben einen allgemeinen Leitfaden zur Erkennung von KI-Schreibmustern mit bloßem Auge zusammengestellt, aber wir haben einige zusätzliche Signale und Marker festgestellt, die speziell in KI-Peer-Reviews vorhanden sind.
Einige der „Hinweise“, die uns bei KI-Peer-Reviews auffallen:
Stärken: Klare Problemformulierung: Der Artikel befasst sich mit einem realen Problem – VLM-basierte OCR-Systeme halluzinieren bei beschädigten Dokumenten, ohne Unsicherheit zu signalisieren, was schlimmer ist als klassische OCR-Systeme, die offensichtlich verstümmelte Ergebnisse liefern. Die Motivation ist gut formuliert. Systematische Methodik: Der zweistufige Trainingsansatz (Pseudo-Labeled Cold Start + GRPO) ist sinnvoll und gut beschrieben. Das multiobjektive Belohnungsdesign mit Schutzmaßnahmen gegen Belohnungs-Hacking (insbesondere der Dämpfungsfaktor η für Längenabweichungen) zeugt von sorgfältiger Technik.
Fragen: 1. Verallgemeinerung auf reale Beschädigungen: Können die Autoren anhand realer beschädigter Dokumente (z. B. Datensätze historischer Dokumente) nachweisen, dass sich der Ansatz über die spezifische synthetische Beschädigungspipeline hinaus verallgemeinern lässt? 2. Vergleich mit MinerU-Systemen: MinerU und MinerU2.5 [2,3] stehen für die neuesten Fortschritte im Bereich der Dokumentenanalyse. Wie schneidet die vorgeschlagene Methode im Vergleich zu diesen Systemen bei Blur-OCR ab? Wenn diese Systeme keine Unsicherheitsschätzungen liefern können, lassen sie sich dann mit dem vorgeschlagenen Tagging-Ansatz kombinieren?
Oberflächliche Kleinigkeiten statt echter Analyse: KI-generierte Rezensionen konzentrieren sich eher auf oberflächliche Probleme als auf echte Bedenken hinsichtlich der wissenschaftlichen Integrität der Arbeit. Typische KI-Kritikpunkte sind beispielsweise die Forderung nach weiteren Ablationen, die den vorgestellten Ablationen sehr ähnlich sind, die Forderung nach einer Vergrößerung des Testsatzes oder einer Erhöhung der Anzahl der Kontrollen oder die Forderung nach weiteren Erläuterungen oder Beispielen.
Viele Worte, die wenig aussagen: KI-Rezensionen weisen oft eine geringe Informationsdichte auf und verwenden eine umständliche Sprache, um Punkte zu verdeutlichen, die auch prägnanter ausgedrückt werden könnten. Diese Umständlichkeit bedeutet zusätzlichen Aufwand für Autoren, die lange Rezensionen durcharbeiten müssen, um die eigentlichen wesentlichen Kritikpunkte herauszufiltern.
Anfang dieses Jahres veröffentlichten Forscher der UNIST in Korea ein Positionspapier, in dem sie einige der Gründe für den Qualitätsverlust des Peer-Review-Prozesses darlegen. Mit dem kontinuierlichen Wachstum des Bereichs der KI zeigen sich nun erste Risse in der Ressourcenbelastung des Peer-Review-Systems. Es gibt einfach nicht genügend qualifizierte Gutachter für die explosionsartig steigende Zahl von Veröffentlichungen.
Das größte Problem bei minderwertigen, KI-generierten Artikeln ist, dass sie einfach nur Zeit und Ressourcen verschwenden, die nur begrenzt zur Verfügung stehen. Nach unserer Analyse sind KI-generierte Artikel einfach nicht so gut wie von Menschen verfasste Artikel, und noch problematischer ist, dass sie von unehrlichen Gutachtern und Artikelfabriken, die nach dem Prinzip „Spray and Pray” arbeiten (eine große Anzahl von Beiträgen bei einer Konferenz einreichen, in der Hoffnung, dass einer davon zufällig angenommen wird), kostengünstig generiert werden können. Wenn KI-generierte Arbeiten das Peer-Review-System überschwemmen dürfen, wird die Qualität der Begutachtung weiter sinken, und die Gutachter werden weniger motiviert sein, weil sie statt echter Forschungsarbeiten nur noch „Schund” lesen müssen.
Zu verstehen, warum KI-generierte Rezensionen schädlich sein können, ist etwas differenzierter. Wir stimmen mit ICLR überein, dass KI positiv als Hilfsmittel eingesetzt werden kann, um Rezensenten dabei zu helfen, ihre Ideen besser zu artikulieren, insbesondere wenn Englisch nicht ihre Muttersprache ist. Darüber hinaus kann KI oft wirklich hilfreiches Feedback liefern, und es ist für Autoren oft produktiv, den Peer-Review-Prozess mit LLMs zu simulieren, um die LLMs dazu zu bringen, die Forschung zu kritisieren und zu hinterfragen und Fehler und Irrtümer aufzudecken, die der Autor ursprünglich vielleicht nicht bemerkt hat.
Die Frage bleibt jedoch: Wenn KI hilfreiches Feedback generieren kann, warum sollten wir dann vollständig KI-generierte Bewertungen verbieten? Der Ökonom Alex Imas von der University of Chicago bringt das Kernproblem in einem aktuellen Tweet auf den Punkt: Die Antwort hängt davon ab, ob wir menschliches Urteilsvermögen in die wissenschaftliche Begutachtung einbeziehen wollen.
Alex Imas Tweet zu KI-generierten Bewertungen
Wenn wir glauben, dass aktuelle KI-Modelle ausreichen, um menschliches Urteilsvermögen vollständig zu ersetzen, dann sollten Konferenzen einfach den gesamten Begutachtungsprozess automatisieren – Beiträge durch ein LLM-Modell laufen lassen und automatisch Bewertungen vergeben. Wenn wir jedoch glauben, dass menschliches Urteilsvermögen Teil des Prozesses bleiben sollte, dann müssen vollständig KI-generierte Inhalte sanktioniert werden. Imas identifiziert zwei zentrale Probleme: Erstens ein Pooling-Gleichgewicht, bei dem KI-generierte Inhalte (die einfacher zu produzieren sind) das menschliche Urteilsvermögen innerhalb weniger Begutachtungszyklen schnell verdrängen werden; und zweitens ein Verifizierungsproblem, bei dem die Feststellung, ob eine KI-Begutachtung tatsächlich gut ist, den gleichen Aufwand erfordert wie die Begutachtung des Beitrags selbst – wenn also LLMs bessere Begutachtungen als Menschen erstellen können, warum dann nicht den gesamten Prozess automatisieren?
Meiner Meinung nach ergänzen menschliche Urteile die Bewertungen durch KI, bieten jedoch einen orthogonalen Mehrwert. Menschen können oft Feedback geben, das außerhalb der Verteilung liegt und nicht sofort offensichtlich ist. Expertenmeinungen sind nützlicher als LLMs, da ihre Meinungen durch Erfahrung, Kontext und eine Perspektive geprägt sind, die im Laufe der Zeit kuratiert und verfeinert wurde. LLMs sind leistungsstark, aber ihren Bewertungen mangelt es oft an Geschmack und Urteilsvermögen, sodass sie „flach“ wirken.
Vielleicht können Konferenzen in Zukunft die SOTA-LLM-Bewertung neben die menschlichen Bewertungen stellen, um sicherzustellen, dass die menschlichen Bewertungen nicht nur die „offensichtlichen” Kritikpunkte wiederholen, die auch von einem LLM aufgezeigt werden können.
Der Anstieg von KI-generierten Inhalten in akademischen Peer-Reviews stellt eine große Herausforderung für die wissenschaftliche Gemeinschaft dar. Unsere Analyse zeigt, dass vollständig KI-generierte Peer-Reviews einen erheblichen Anteil der gesamten ICLR-Review-Population ausmachen und dass auch die Anzahl der KI-generierten Artikel steigt. Allerdings handelt es sich bei diesen KI-generierten Artikeln häufiger um Schund als um echte Forschungsbeiträge.
Wir sind der Meinung, dass dieser Trend problematisch und schädlich für die Wissenschaft ist, und fordern Konferenzen und Verlage dazu auf, KI-Erkennung als Lösung zu nutzen, um Missbrauch zu verhindern und die wissenschaftliche Integrität zu wahren.
