Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Ein Diagramm, das den Prozentsatz der von KI generierten Abstracts zeigt, die jährlich bei der ICLR eingereicht werden, und einen Aufwärtstrend seit 2023 aufzeigt.
Im Februar 2024 wurden in einem Artikel, der in Frontiers in Cell and Developmental Biology veröffentlicht wurde, Abbildungen gezeigt, die offensichtlich mit KI erstellt worden waren. Dieser Artikel sorgte für Schlagzeilen, da eines der Bilder eine Ratte mit absurd großen Hoden und unverständlichem Text zeigte, der absolut keinen Sinn ergab.
Dies ist ein echter Artikel, der in Frontiers in Cell and Developmental Biology veröffentlicht wurde. Die Abbildungen sind offensichtlich KI-generiert. Eine davon zeigt eine Ratte mit absurd großen Hoden. Der Text in den Abbildungen ist Kauderwelsch. pic.twitter.com/4Acn2YZYwM
— Cliff Swan (@cliff_swan) 15. Februar 2024
Während Peer Reviews (theoretisch) ausreichen sollten, um offensichtliche Fälle wie diesen zu erkennen, stellt sich die Frage, was passiert, wenn der eigentliche Inhalt der Arbeit von einer KI generiert wurde. Selbst Experten haben Schwierigkeiten, von einer KI generierte Forschungsergebnisse von von Menschen verfassten Forschungsergebnissen zu unterscheiden.
Ein kürzlich erschienener Bericht in Nature beleuchtet die wachsende Besorgnis über KI-generierte Inhalte in wissenschaftlichen Arbeiten. Der Artikel beschreibt eine Studie, in der Informatiker Claude 3.5, eines der neuesten LLMs, verwendeten, um Forschungsideen zu generieren und Arbeiten zu verfassen, die dann wissenschaftlichen Gutachtern vorgelegt wurden. Diese Gutachter bewerteten die Arbeiten anschließend hinsichtlich „Neuartigkeit, Spannendheit, Machbarkeit und erwarteter Wirksamkeit”. Im Durchschnitt bewerteten die Gutachter die KI-Arbeiten höher als die von Menschen verfassten Arbeiten! Dies wirft die Frage auf, ob KI tatsächlich bessere Forschungsideen hervorbringt als Menschen. Auch wenn man geneigt ist, dies zu glauben, enthielten von den 4.000 KI-generierten Arbeiten, die von den Forschern untersucht wurden, nur 200 (5 %) tatsächlich originelle Ideen: Die meisten Arbeiten wiederholten lediglich bereits vorhandene Ideen aus dem Trainingssatz des LLM.
Letztendlich schadet KI-generierte Forschung der Gemeinschaft, indem sie im Peer-Review-Prozess für Verwirrung sorgt und die Aussagekraft der Ergebnisse mindert, ganz zu schweigen von der Verschwendung der Zeit und Mühe der Gutachter, die sich um die Einhaltung der Forschungsstandards bemühen. Noch schlimmer ist, dass KI-generierte Forschungsergebnisse oft überzeugend wirken, aber in Wirklichkeit klingt der von einem Sprachmodell erzeugte Text nur flüssig und kann voller Fehler, Halluzinationen und logischer Unstimmigkeiten sein. Das Problem dabei ist, dass selbst erfahrene Gutachter oft nicht erkennen können, wann es sich bei dem, was sie lesen, um eine LLM-Halluzination handelt.
Die Organisatoren der großen Konferenzen zum Thema maschinelles Lernen stimmen mit uns überein: In wissenschaftlichen Veröffentlichungen haben von LLM generierte Texte nichts zu suchen. Die offizielle Richtlinie der ICML (International Conference on Machine Learning) lautet wie folgt:
Erläuterung zur Richtlinie für große Sprachmodelle
Wir (die Programmvorsitzenden) haben die folgende Erklärung in den Call for Papers für die ICML 2023 aufgenommen:
Beiträge, die Text enthalten, der aus einem groß angelegten Sprachmodell (LLM) wie ChatGPT generiert wurde, sind verboten, es sei denn, der erzeugte Text wird als Teil der experimentellen Analyse des Beitrags präsentiert.
Diese Erklärung hat bei potenziellen Autoren eine Reihe von Fragen aufgeworfen und einige dazu veranlasst, sich proaktiv an uns zu wenden. Wir freuen uns über Ihr Feedback und Ihre Kommentare und möchten die Absicht hinter dieser Erklärung sowie unsere Pläne zur Umsetzung dieser Richtlinie für die ICML 2023 näher erläutern.
TLDR;
Die Richtlinie zu großen Sprachmodellen (LLM) für die ICML 2023 verbietet Texte, die vollständig von LLM erstellt wurden (d. h. „generiert“ wurden). Dies hindert Autoren nicht daran, LLM zum Bearbeiten oder Überarbeiten von selbst verfassten Texten zu verwenden. Die LLM-Richtlinie basiert weitgehend auf dem Grundsatz, bei der Vermeidung potenzieller Probleme im Zusammenhang mit der Verwendung von LLM, einschließlich Plagiaten, konservativ vorzugehen.
Trotz dieser Warnung stellen wir fest, dass eine beträchtliche und wachsende Zahl von Autoren im Bereich des maschinellen Lernens gegen diese Richtlinie verstößt und dennoch KI zur Generierung von Text in ihren Arbeiten einsetzt.
Bei Pangram wollten wir das Ausmaß dieses Problems in unserem eigenen Bereich, der künstlichen Intelligenz, messen. Wir machten uns daran, die Frage zu beantworten: Nutzen KI-Forscher ChatGPT, um ihre eigenen Forschungsarbeiten zu verfassen?
Um dieses Problem zu untersuchen, haben wir mithilfe der OpenReview-API Konferenzbeiträge aus den Jahren 2018 bis 2024 von zwei der größten KI-Konferenzen extrahiert: ICLR und NeurIPS.
Anschließend haben wir den AI Detector von Pangram auf alle bei diesen Konferenzen eingereichten Abstracts angewendet. Hier sind unsere Ergebnisse:
Ein Diagramm, das den Prozentsatz der von KI generierten Abstracts zeigt, die jährlich bei der ICLR eingereicht werden, und einen Aufwärtstrend seit 2023 aufzeigt.
Ein Diagramm, das den Prozentsatz der von KI generierten Abstracts zeigt, die bei Neurips pro Jahr eingereicht wurden, und einen Aufwärtstrend seit 2023 aufzeigt.
Wir können alles vor 2022 als Validierungssatz für die Falsch-Positiv-Rate unseres Modells betrachten, da es damals noch keine großen Sprachmodelle gab. Wie in den Abbildungen dargestellt, sagen wir voraus, dass jede einzelne Konferenzzusammenfassung aus dem Jahr 2022 oder davor von unserem Modell als von Menschen verfasst vorhergesagt wird. Dies sollte Vertrauen in die Genauigkeit unseres Modells wecken: Unsere Falsch-Positiv-Rate ist bei wissenschaftlichen Zusammenfassungen sehr gut, sodass wir bei jeder positiven Vorhersage in den Jahren 2023 und 2024 davon ausgehen können, dass es sich um ein echtes Positiv handelt.
Was wir seitdem beobachten, ist äußerst besorgniserregend. Seit der Einführung von ChatGPT im November 2022 gab es drei Konferenzzyklen.
Der erste Zyklus fand genau zum Zeitpunkt der Einführung von ChatGPT (ICLR 2023) statt. Die Einreichungsfrist lag zwar vor der Einführung von ChatGPT, aber die Autoren hatten die Möglichkeit, vor der Konferenz, die einige Monate nach der Einführung von ChatGPT stattfand, Änderungen vorzunehmen. Das Ergebnis entspricht unseren Erwartungen: Nur eine Handvoll Abstracts wurden von KI verfasst (wir haben in diesem Zyklus nur zwei von mehreren Tausend gefunden, die von KI verfasst wurden) und wurden wahrscheinlich nach Ablauf der Frist geändert.
Der zweite Zyklus fand etwa sechs Monate später statt, bei NeuRIPS 2023, dessen Einreichungsfrist im Sommer 2023 für eine Konferenz im Dezember war. Bei dieser Konferenz berichten wir, dass etwa 1,3 % der eingereichten Abstracts KI-generiert waren: ein kleiner, aber signifikanter Anteil.
Schließlich haben wir im letzten Zyklus, ICLR 2024, der vor wenigen Monaten stattfand, einen Anstieg auf 4,9 % festgestellt: ein fast viermaliges Wachstum gegenüber den KI-generierten Bewertungen von NeuRIPS 2023!
Diese Ergebnisse verdeutlichen einen besorgniserregenden Trend: Nicht nur die Anzahl der bei großen KI-Veranstaltungen eingereichten KI-generierten Konferenzbeiträge nimmt zu, sondern diese Zahl wächst auch immer schneller – mit anderen Worten: Das Tempo, mit dem KI-generierte Beiträge eingereicht werden, beschleunigt sich.
Sehen Sie sich einige dieser Abstracts an und entscheiden Sie selbst, ob sie so klingen, wie Sie es aus der technischen wissenschaftlichen Literatur gewohnt sind:
In der komplexen Landschaft vernetzter Daten ist das Verständnis der kausalen Auswirkungen von Interventionen eine entscheidende Herausforderung mit Auswirkungen auf verschiedene Bereiche. Graph Neural Networks (GNNs) haben sich als leistungsstarkes Werkzeug zur Erfassung komplexer Abhängigkeiten etabliert, doch das Potenzial des geometrischen Deep Learning für die kausale Inferenz in GNN-basierten Netzwerken ist noch nicht ausreichend erforscht. Diese Arbeit leistet drei wichtige Beiträge, um diese Lücke zu schließen. Erstens stellen wir einen theoretischen Zusammenhang zwischen der Krümmung von Graphen und der kausalen Inferenz her und zeigen, dass negative Krümmungen die Identifizierung kausaler Effekte erschweren. Zweitens präsentieren wir auf der Grundlage dieser theoretischen Erkenntnis Berechnungsergebnisse unter Verwendung der Ricci-Krümmung zur Vorhersage der Zuverlässigkeit von Schätzungen kausaler Effekte und zeigen empirisch, dass Regionen mit positiver Krümmung genauere Schätzungen liefern. Schließlich schlagen wir eine Methode vor, die den Ricci-Fluss nutzt, um die Schätzung von Behandlungseffekten auf vernetzten Daten zu verbessern, und zeigen eine überlegene Leistung durch die Reduzierung von Fehlern durch die Abflachung der Kanten im Netzwerk. Unsere Ergebnisse eröffnen neue Wege für die Nutzung der Geometrie bei der Schätzung kausaler Effekte und bieten Erkenntnisse und Werkzeuge, die die Leistung von GNNs bei kausalen Inferenzaufgaben verbessern.
Im Bereich der Sprachmodelle ist die Datenkodierung von entscheidender Bedeutung, da sie die Effizienz und Effektivität des Modelltrainings beeinflusst. Byte Pair Encoding (BPE) ist eine etablierte Technik zur Tokenisierung von Unterwörtern, die durch die Zusammenführung häufiger Byte- oder Zeichenpaare ein Gleichgewicht zwischen Recheneffizienz und sprachlicher Ausdruckskraft herstellt. Da das Training von Sprachmodellen erhebliche Rechenressourcen erfordert, schlagen wir Fusion Token vor, eine Methode, die den herkömmlichen Byte Pair Encoding (BPE)-Ansatz bei der Datenkodierung für Sprachmodelle erheblich verbessert. Fusion Token verwendet im Vergleich zu BPE eine aggressivere Rechenstrategie und erweitert die Tokengruppen von Bigrammen auf 10-Gramme. Bemerkenswert ist, dass mit der Hinzufügung von 1024 Tokens zum Vokabular die Kompressionsrate die eines regulären BPE-Tokenizers mit einem Vokabular von einer Million deutlich übertrifft. Insgesamt führt die Fusion-Token-Methode aufgrund eines größeren Datenumfangs pro Recheneinheit zu spürbaren Leistungsverbesserungen. Darüber hinaus führt eine höhere Komprimierung zu schnelleren Inferenzzeiten, da weniger Token pro Zeichenfolge vorhanden sind. Durch den Einsatz von mehr Rechenressourcen für den Tokenizer-Erstellungsprozess maximiert Fusion Token das Potenzial von Sprachmodellen als effiziente Datenkomprimierungsmaschinen und ermöglicht so effektivere Sprachmodellierungssysteme.
Im sich rasch entwickelnden Bereich der Bewegungsgenerierung gilt die Verbesserung der Textsemantik als vielversprechende Strategie, um genauere und realistischere Bewegungen zu erzeugen. Allerdings sind aktuelle Techniken häufig auf umfangreiche Sprachmodelle angewiesen, um Textbeschreibungen zu verfeinern, ohne eine präzise Abstimmung zwischen Text- und Bewegungsdaten zu gewährleisten. Diese Fehlausrichtung führt oft zu einer suboptimalen Bewegungsgenerierung, wodurch das Potenzial dieser Methoden eingeschränkt wird. Um dieses Problem zu lösen, stellen wir einen neuartigen Rahmen namens SemanticBoost vor, der darauf abzielt, die Lücke zwischen Text- und Bewegungsdaten zu schließen. Unsere innovative Lösung integriert zusätzliche semantische Informationen, die aus den Bewegungsdaten selbst abgeleitet werden, zusammen mit einem speziellen Netzwerk zur Rauschunterdrückung, um die semantische Kohärenz zu gewährleisten und die Gesamtqualität der Bewegungsgenerierung zu verbessern. Durch umfangreiche Experimente und Bewertungen zeigen wir, dass SemanticBoost bestehende Methoden in Bezug auf Bewegungsqualität, Abstimmung und Realismus deutlich übertrifft. Darüber hinaus unterstreichen unsere Ergebnisse das Potenzial der Nutzung semantischer Hinweise aus Bewegungsdaten und eröffnen neue Wege für eine intuitivere und vielfältigere Bewegungsgenerierung.
Fallen Ihnen irgendwelche Muster auf? Zunächst einmal sehen wir, dass alle mit sehr ähnlichen Formulierungen beginnen: „In der komplexen Landschaft von“, „Im Bereich von“, „Im sich rasch entwickelnden Bereich von“. Wir bezeichnen dies als künstlich blumige Sprache. Wir haben bereits darüber geschrieben, wie oft LLMs viele Wörter verwenden, um nur sehr wenig tatsächlichen Inhalt zu produzieren. Während dies für einen Studenten, der versucht, eine Mindestwortzahl in einer Hausarbeit zu erreichen, wünschenswert sein mag, macht diese Art von übermäßig wortreicher Sprache für einen technischen Leser, der sich mit Forschungsergebnissen befassen möchte, das Lesen der Arbeit schwieriger und zeitaufwändiger, während die eigentliche Botschaft der Arbeit dadurch nur weniger klar wird.
Wir haben uns gefragt, ob KI-generierte Artikel tatsächlich effektiv durch den Peer-Review-Prozess herausgefiltert werden oder ob einige davon durch die Maschen schlüpfen.
Um diese Frage zu beantworten, haben wir die Korrelation zwischen KI-generierten Abstracts und Papierentscheidungen bei der ICLR 2024 analysiert. (Mündliche Vorträge, Spotlight-Vorträge und Poster sind allesamt „akzeptierte” Beiträge; mündliche Vorträge und Spotlight-Vorträge sind besondere Anerkennungskategorien). Hier sind unsere Ergebnisse:
| Kategorie | KI-generierter Prozentsatz |
|---|---|
| ICLR 2024 mündlich | 2.33% |
| ICLR 2024 Poster | 2.71% |
| ICLR 2024 im Rampenlicht | 1.36% |
| Abgelehnt | 5.42% |
Zwar ist der Anteil der angenommenen KI-generierten Beiträge geringer als der Anteil der eingereichten Beiträge, dennoch hat eine beträchtliche Anzahl den Peer-Review-Prozess durchlaufen. Dies bedeutet, dass die Gutachter zwar einige KI-generierte Inhalte erkennen, jedoch nicht alle.
Wir stellen fest, dass sogar einige mündliche Vorträge und Spotlight-Papers KI-generierte Abstracts haben! Wenn wir die Situation wohlwollend interpretieren, könnte es sein, dass die Forschung tatsächlich von hoher Qualität ist und die Autoren lediglich Abkürzungen mit ChatGPT nehmen, um ihre Arbeit besser präsentieren oder überarbeiten zu können.
Da ein Großteil der Forschungsgemeinschaft keine englischen Muttersprachler sind, werden LLM zunehmend dazu verwendet werden, um in anderen Sprachen verfasste Artikel ins Englische zu übersetzen.
Trotz der ausdrücklichen Aufforderung der KI-Community an Autoren, ChatGPT nicht zu verwenden, ignorieren viele Autoren diese Richtlinie und nutzen LLM dennoch, um ihre Arbeiten zu verfassen. Noch besorgniserregender ist, dass selbst KI-Experten, die als Peer-Reviewer fungieren, um Konferenzen vor LLM-generierten Arbeiten zu schützen, diese nicht erkennen können!
ChatGPT hat sogar noch weitreichendere Auswirkungen auf den gesamten akademischen Prozess. Eine aktuelle ICML-Fallstudie ergab, dass zwischen 6 und 16 Prozent der Peer-Reviews selbst von KI generiert wurden, und es besteht eine positive Korrelation zwischen KI-generierten Peer-Reviews und der Nähe des Review-Termins zum Stichtag!
Wir fordern die KI-Community auf, diese Richtlinien besser durchzusetzen, und die Autoren, Verantwortung zu übernehmen, um sicherzustellen, dass ihre Arbeiten von Menschen verfasst wurden.
