Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
HINWEIS: Wir haben unseren Namen in Pangram Labs geändert! Weitere Informationen finden Sie in unserem Blogbeitrag.
Bei Checkfor.ai streben wir danach, der beste KI-Textdetektor seiner Klasse zu sein, um unsere Mission zu fördern, das Internet vor minderwertigen, durch KI generierten Inhalten zu schützen. Einer der wichtigsten Bereiche, die es zu verteidigen gilt, sind Plattformen für Nutzerbewertungen.
Gefälschte Online-Bewertungen schaden letztendlich sowohl Unternehmen als auch Verbrauchern, und ChatGPT hat es nur noch einfacher gemacht, Bewertungsbetrug in großem Stil zu begehen.
Von ChatGPT generierte Bewertung auf Yelp
Das Vertrauen der Nutzer in Online-Bewertungen zu bewahren, ist ein wichtiger Teil unserer Mission bei Checkfor.ai, die Authentizität von menschengenerierten Inhalten im Internet zu schützen.
Mein Name ist Bradley Emi und ich bin CTO von Checkfor.ai. Ich habe als KI-Forscher in Stanford gearbeitet, als ML-Wissenschaftler im Tesla-Autopilot-Team Produktionsmodelle ausgeliefert und ein Forschungsteam geleitet, das bei Absci eine Plattform zum Entwerfen von Medikamenten mit großen neuronalen Netzen aufgebaut hat. Bei selbstfahrenden Autos und der Arzneimittelentwicklung ist eine Genauigkeit von 99 % einfach nicht gut genug. Eine Genauigkeit von 99 % könnte bedeuten, dass 1 von 100 Fußgängern von einem autonomen Fahrzeug überfahren wird oder 1 von 100 Patienten lebensbedrohliche Nebenwirkungen durch ein schlecht entwickeltes Medikament erleidet.
Die Erkennung von KI-generierten Texten ist zwar nicht unbedingt eine Frage von Leben und Tod, aber wir bei Checkfor.ai möchten Modelle und Softwaresysteme entwickeln, die denselben Qualitätsstandards entsprechen. Unser Detektor muss adversarialen Angriffen wie Paraphrasierung, fortgeschrittenem Prompt Engineering und Tools zur Umgehung der Erkennung wie undetectable.ai standhalten. Wir nehmen die Lösung dieses Problems sehr ernst (d. h. wir geben uns nicht mit 99 % zufrieden) und daher ist eine der höchsten Prioritäten unseres Engineering-Teams die Entwicklung einer extrem robusten Bewertungsplattform.
Ein Cybersicherheitsunternehmen der Software-Generation 1.0 würde niemals ein Produkt ohne Unit-Tests ausliefern. Als Unternehmen der Software-Generation 2.0 benötigen wir das Äquivalent zu Unit-Tests, nur dass diese große Modelle mit Millionen oder sogar Milliarden von Parametern testen müssen, die sich stochastisch verhalten können und korrekt funktionieren müssen, während sie eine breite Verteilung von Randfällen abdecken. Wir können uns nicht mit einer „99-prozentigen Testgenauigkeit” zufrieden geben: Wir brauchen Bewertungen, die speziell die Arten von Beispielen testen, denen wir in der realen Welt begegnen werden.
Ein guter Testsatz beantwortet spezifische Fragen und minimiert die Anzahl der Störvariablen.
Beispiele für gezielte Testfragen und entsprechende Testsätze sind:
Es gibt mehrere Gründe, warum Sie nicht einfach alles in Ihrem Testsatz kombinieren und eine Zahl angeben können.
Deshalb gehen Benchmark-Studien wie diese völlig am Ziel vorbei. Sie sind unkonzentriert und testen nicht die spezifischen Verhaltensweisen, die wir vom Modell erwarten. Voreingenommene Testsets zeigen das Modell von seiner besten Seite, nicht aber, wenn es mit Beispielen aus der realen Welt konfrontiert wird.
Ein Beispiel für eine reale Anwendung der KI-Texterkennung ist die Erkennung von KI-generierten Bewertungen auf Yelp. Yelp hat sich zu einer strengen Moderation seiner Bewertungsplattform verpflichtet. Wenn Sie sich den Trust and Safety Report für 2022 ansehen, wird deutlich, dass Yelp großen Wert auf die Bekämpfung von betrügerischen, bezahlten, incentivierten oder anderweitig unehrlichen Bewertungen legt.
Glücklicherweise hat Yelp auch einen hervorragenden Open-Source-Datensatz veröffentlicht. Wir haben zufällig 1000 Bewertungen aus diesem Datensatz ausgewählt und zusätzlich 1000 synthetische Bewertungen mit ChatGPT, dem am häufigsten verwendeten LLM, generiert.
Es ist wichtig zu beachten, dass die ChatGPT-Bewertungen für echte Yelp-Unternehmen aus ihrem Kaggle-Datensatz stammen: Auf diese Weise kann das Modell nicht durch Überanpassung an Details wie Unterschiede in der Unternehmensverteilung schummeln. Während der Bewertung testen wir, ob das Modell wirklich gelernt hat, die richtigen Merkmale im Text zu verwenden, um echte von gefälschten Bewertungen zu unterscheiden.
Wir verwenden diesen Datensatz, um herauszufinden, welche der KI-Erkennungsmodelle wirklich in der Lage sind, von ChatGPT generierte Bewertungen von echten zu unterscheiden!
Unsere einfachste Metrik ist die Genauigkeit: Wie viele Beispiele hat jedes Modell korrekt klassifiziert?
Auch wenn ein Unterschied von 99,85 % gegenüber 96 % zunächst nicht besonders groß erscheint, können wir diese Zahlen besser einordnen, wenn wir die Fehlerquote berücksichtigen.
Checkfor.ai wird voraussichtlich nur bei einer von 666 Abfragen einen Fehler machen, während Originality.AI voraussichtlich bei einer von 26 Abfragen einen Fehler macht und GPTZero bei einer von 11 Abfragen. Das bedeutet, dass unsere Fehlerquote mehr als 25-mal besser ist als die von Originality.AI und 60-mal besser als die von GPTZero.
Um Falsch-Positiv- und Falsch-Negativ-Ergebnisse zu betrachten (in der Sprache des maschinellen Lernens würden wir die sehr ähnlichen Statistiken Präzision und Recall betrachten), können wir uns die Verwechslungsmatrix ansehen – wie hoch sind die relativen Anteile von Echt-Positiv-, Falsch-Positiv-, Echt-Negativ- und Falsch-Negativ-Ergebnissen?

Over all 2,000 examples, Checkfor.ai produces 0 false positives and 3 false negatives, exhibiting high precision and high recall. While admirably, GPTZero does not often predict false positives, with only 2 false positives, it comes at the expense of predicting 183 false negatives– an incredibly high false negative rate! We’d call this a model that exhibits high precision but low recall. Finally, Originality.AI predicts 60 false positives and 8 false negatives– and it refuses to predict a likelihood on short reviews (<50 words) — which are the hardest cases and most likely to be false positives. This high false positive rate means that this model is low precision, high recall.
Bei der KI-Texterkennung ist zwar eine niedrige Falsch-Positiv-Rate wichtiger (wir wollen echte Menschen nicht fälschlicherweise beschuldigen, von ChatGPT plagiiert zu haben), aber auch eine niedrige Falsch-Negativ-Rate ist notwendig – wir können nicht zulassen, dass 10 bis 20 % der KI-generierten Inhalte durch die Maschen schlüpfen.
Letztendlich möchten wir, dass unser Modell ein hohes Maß an Zuverlässigkeit ausdrückt, wenn klar ist, dass der Text von einem Menschen oder von ChatGPT geschrieben wurde.
In Anlehnung an eine ähnliche Visualisierungsstrategie wie in der ausgezeichneten wissenschaftlichen Arbeit „DetectGPT“ von Mitchell et al. stellen wir die Histogramme der Modellvorhersagen sowohl für KI-generierte Rezensionen als auch für echte Rezensionen für alle drei Modelle dar. Da alle drei Modelle eine Genauigkeit von über 90 % aufweisen, ist eine logarithmische Skala auf der y-Achse am hilfreichsten, um die Eigenschaften der Konfidenz jedes Modells zu visualisieren.

In diesem Diagramm stellt die x-Achse die Wahrscheinlichkeit dar, mit der das Modell die eingegebene Rezension als KI-generiert vorhersagt. Die y-Achse stellt dar, wie oft das Modell diese bestimmte Wahrscheinlichkeit für echten Text (blaue Balken) oder KI-Text (rote Balken) vorhersagt. Wir sehen, dass Checkfor.ai bei der Betrachtung dieser „weichen” Vorhersagen, anstatt nur ein Ja oder Nein zu geben, viel besser darin ist, eine klare Entscheidungsgrenze zu ziehen und sicherere Vorhersagen zu treffen als GPTZero oder Originality.AI.
GPTZero neigt dazu, zu viele Beispiele im Wahrscheinlichkeitsbereich von 0,4 bis 0,6 vorherzusagen, wobei der Modus bei etwa 0,5 liegt. Andererseits wird das Problem der falsch-positiven Ergebnisse von Originality.AI bei der Untersuchung der weichen Vorhersagen noch deutlicher. Viele echte Bewertungen werden fast als KI-generiert vorhergesagt, auch wenn sie den Schwellenwert von 0,5 nicht überschreiten. Dies macht es für einen Benutzer schwierig, darauf zu vertrauen, dass das Modell KI-generierte Texte zuverlässig vorhersagen kann, da kleine Veränderungen an der Bewertung es einem Angreifer ermöglichen können, den Detektor zu umgehen, indem er die Bewertung so lange iterativ bearbeitet, bis sie unter dem Erkennungsschwellenwert liegt.
Unser Modell hingegen ist in der Regel sehr entschlossen. Wir sind im Allgemeinen in der Lage, sichere Entscheidungen zu treffen. Für Leser mit einem Hintergrund in Deep Learning oder Informationstheorie haben wir die niedrigste Kreuzentropie/KL-Divergenz zwischen der tatsächlichen Verteilung und der vorhergesagten Verteilung.
Es ist eindeutig von Vorteil, echten Text mit hoher Sicherheit als echt vorherzusagen (siehe diese humorvolle Abbildung von Twitter). Dieser Pädagoge hat die KI-Wahrscheinlichkeit eindeutig als einen Textanteil missverstanden, der von der KI geschrieben wurde. Wenn Detektoren jedoch nicht sicher sind, ob echter Text wirklich echt ist, bleibt Raum für Fehlinterpretationen.
https://twitter.com/rustykitty_/status/1709316764868153537
Von den drei von Checkfor.ai vorhergesagten Fehlern sind leider zwei ziemlich sicher. Unser Detektor ist nicht perfekt, und wir arbeiten aktiv daran, das Modell zu kalibrieren, um solche sicheren Fehlvorhersagen zu vermeiden.
Wir stellen die für diese Bewertung von echten und gefälschten Yelp-Bewertungen verwendeten Datensätze als Open Source zur Verfügung, damit zukünftige Modelle diesen wichtigen Maßstab nutzen können, um die Genauigkeit ihrer Detektoren zu testen.
Unsere wichtigsten Erkenntnisse sind:
Checkfor.ai weist sowohl eine niedrige Falsch-Positiv- als auch eine niedrige Falsch-Negativ-Rate auf. Checkfor.ai ist in der Lage, nicht nur mit hoher Genauigkeit, sondern auch mit hoher Zuverlässigkeit zwischen echten und KI-generierten Bewertungen zu unterscheiden. Wir werden in Zukunft weitere Blogbeiträge dieser Art veröffentlichen und unsere ehrlichen Einschätzungen zu unserem Modell öffentlich teilen, sobald wir mehr darüber erfahren. Bleiben Sie dran und teilen Sie uns Ihre Meinung mit!
