Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Alles über Fehlalarme bei KI-Detektoren

Bradley Emi
27. März 2025

Einer der wichtigsten Aspekte unserer Arbeit bei Pangram ist die Minimierung unserer Falsch-Positiv-Rate. Das bedeutet, dass wir die Wahrscheinlichkeit, dass menschliche Texte als KI-generiert markiert werden, so weit wie möglich reduzieren. Heute erklären wir Ihnen die Falsch-Positiv-Raten von Pangram für viele verschiedene Arten von Texten, wie wir unsere Modelle messen und bewerten, um sicherzustellen, dass die Falsch-Positiv-Rate so niedrig wie möglich ist, und schließlich einige der Techniken, die wir einsetzen, um KI-Erkennungssoftware mit der niedrigsten Falsch-Positiv-Rate in der Branche zu entwickeln.

Was ist ein falsch positives Ergebnis?

Im Zusammenhang mit der KI-Erkennung liegt ein falsch positives Ergebnis vor, wenn ein Detektor fälschlicherweise eine von Menschen erstellte Probe als KI-generiert einstuft. Im Gegensatz dazu liegt ein falsch negatives Ergebnis vor, wenn eine KI-generierte Probe fälschlicherweise als von Menschen erstellt eingestuft wird.

Falsch-positive und falsch-negative Ergebnisse bei der KI-Erkennung

Das obige Diagramm veranschaulicht die beiden Arten von Fehlern. Wenn Rot die negative Klasse und Grün die positive Klasse darstellt, wäre ein rotes X, das als grün vorhergesagt wurde, ein falsch positives Ergebnis, und ein grünes O, das als rot vorhergesagt wurde, wäre ein falsch negatives Ergebnis.

In der Statistik werden die Begriffe Fehler vom Typ I und Fehler vom Typ II verwendet: Diese Begriffe bedeuten genau dasselbe. Ein Fehler vom Typ I ist ein falsch positives Ergebnis, ein Fehler vom Typ II ein falsch negatives Ergebnis. Statistiker und insbesondere diejenigen, die in den Medizinwissenschaften tätig sind, verwenden auch die Begriffe Sensitivität und Spezifität, um diese beiden Fehlerquoten zu unterscheiden. Wissenschaftler im Bereich des maschinellen Lernens verwenden die Begriffe Präzision und Recall. Obwohl es einige geringfügige technische Unterschiede zwischen diesen Begriffen gibt, werden wir uns in diesem Beitrag zu Bildungszwecken einfach an „falsch positive Ergebnisse“ und „falsch negative Ergebnisse“ halten, da ich denke, dass dies die selbsterklärendsten Begriffe für diese beiden Arten von Fehlern sind.

Bei der KI-Erkennung ist ein falsch positives Ergebnis weitaus schlimmer als ein falsch negatives. Die wiederholte Beschuldigung von Studierenden, die ihre Arbeiten ohne KI-Unterstützung selbst verfassen, des KI-Plagiats untergräbt das Vertrauen zwischen Studierenden und Lehrenden erheblich und kann bei den Studierenden große Ängste und Stress auslösen. Ein falsch negatives Ergebnis hingegen kann bedeuten, dass hin und wieder ein Betrüger durchrutscht, was kein so schlimmendes Ergebnis ist.

Es ist erwähnenswert, dass bei anderen Erkennungsproblemen ein falsch negatives Ergebnis viel mehr Schaden anrichten kann als ein falsch positives: Bei einer Krebsvorsorgeuntersuchung ist es beispielsweise viel besser, wenn der Test fälschlicherweise anzeigt, dass der Patient Krebs hat, als wenn der Test den tatsächlichen Krebs des Patienten völlig übersieht. Wenn der Test fälschlicherweise angibt, dass der Patient Krebs hat, ist es für den Patienten zwar unbequem, erneut zu Nachuntersuchungen und zusätzlichen Untersuchungen zu erscheinen, aber das ist weitaus besser, als eine Krebsdiagnose zu übersehen, die eine Gefahr für das Leben des Patienten darstellt.

Zurück zur KI-Erkennung: Ein falsch positives Ergebnis verursacht mehr Schaden als ein falsch negatives, aber beide sind wichtig: Wenn KI-generierte Texte durchweg übersehen und fälschlicherweise als menschlich eingestuft werden, untergräbt dies ebenfalls den Wert des Tools. Daher verfolgen wir bei Pangram den allgemeinen Ansatz, sowohl falsch negative als auch falsch positive Ergebnisse so weit wie möglich zu minimieren, wobei wir falsch positiven Ergebnissen eine höhere Priorität einräumen.

Wie hoch ist die Falsch-Positiv-Rate von Pangram?

Die Antwort lautet: Es kommt darauf an!

Insgesamt schätzen wir unsere Falsch-Positiv-Rate auf etwa 1 zu 10.000: manchmal etwas höher, manchmal etwas niedriger, je nach Art des Textes und anderen Variablen.

Wir messen die Falsch-Positiv-Rate von Pangram anhand einer Vielzahl von Texten: Wir bezeichnen diese als Domänen. Die folgenden Angaben sind zwar nicht vollständig, aber es handelt sich um unsere aktuellsten Falsch-Positiv-Raten, die wir intern für jede Domäne messen:

DomäneFalsch-positiv-Rate
Wissenschaftliche Aufsätze0.004%
Produktbewertungen (Englisch)0.004%
Produktbewertungen (Spanisch)0.008%
Produktbewertungen (Japanisch)0.015%
Wissenschaftliche Abstracts0.001%
Code-Dokumentation0.0%
Kongressprotokolle0.0%
Rezepte0.23%
Medizinische Fachartikel0.000%
US-Unternehmensbewertungen0.0004%
Hollywood-Filmdrehbücher0.0%
Wikipedia (Englisch)0.016%
Wikipedia (Spanisch)0.07%
Wikipedia (Japanisch)0.02%
Wikipedia (Arabisch)0.08%
Nachrichtenartikel0.001%
Bücher0.003%
Gedichte0.05%
Politische Reden0.0%
Fragen und Antworten zu sozialen Medien0.01%
Kreatives Schreiben, Kurzgeschichten0.009%
Anleitungen0.07%

Welche Faktoren bestimmen die Anfälligkeit von Pangram für Fehlalarme?

Im Allgemeinen erzielt Pangram die besten Ergebnisse, wenn die folgenden Bedingungen erfüllt sind:

  • Der Text ist lang genug (über zweihundert Wörter).
  • Der Text ist in vollständigen Sätzen geschrieben.
  • Die Domäne ist in gängigen Online-Trainingsdatensätzen gut vertreten.
  • Der Text enthält mehr kreative Elemente und ist weniger formelhaft.

Wir glauben, dass diese Faktoren der Grund dafür sind, dass Pangram bei Aufsätzen, kreativem Schreiben und Rezensionen am besten abschneidet. Während Nachrichtenartikel, wissenschaftliche Arbeiten und Wikipedia-Einträge eher formelhaft und technisch sind, sind in diesen Bereichen reichlich Daten verfügbar, sodass Pangram sehr gut darin geworden ist, selbst subtile Muster im Text zu erkennen. Am schwächsten schneidet Pangram schließlich bei Rezepten und Gedichten ab, da diese Texte in der Regel kurz sind, nicht in vollständigen Sätzen verfasst sind (wodurch das LLM weniger Gelegenheit hat, seinen eigenwilligen Stil in den Text einzubringen) und im Internet generell seltener vorkommen als Texte aus anderen Bereichen.

Was bedeutet das in der Praxis? Pangram ist zwar in allen Bereichen relativ zuverlässig, aber Sie können sich auf die Genauigkeit von Pangram noch mehr verlassen, wenn der Text lang ist, aus vollständigen Sätzen besteht und mehr originelle Eingaben vom Verfasser erfordert. Aus diesem Grund raten wir davon ab, kurze Aufzählungslisten und Gliederungen, mathematische Formeln, sehr kurze Antworten (z. B. einzelne Sätze) und extrem formelhafte Texte wie lange Datenlisten, Tabellenkalkulationen, vorlagenbasierte Texte und Bedienungsanleitungen zu überprüfen.

Wie hoch ist die Falsch-Positiv-Rate von Pangram im Vergleich zu Mitbewerbern?

Wir können denselben gründlichen Benchmark-Test nicht bei unseren Mitbewerbern durchführen, da die Kosten dafür einfach zu hoch wären. Wir können jedoch die von unseren Mitbewerbern angegebenen Falsch-Positiv-Raten betrachten.

Turnitin

Die von Turnitin auf seiner Website angegebene Falsch-Positiv-Rate

Das neueste Whitepaper von Turnitin berichtet von einer Falsch-Positiv-Rate von 0,51 % bei akademischen Texten, was auf Dokumentebene etwa 1 von 200 entspricht. Das bedeutet, dass 1 von 200 eingereichten studentischen Arbeiten fälschlicherweise als KI gekennzeichnet wird.

Unsere Falsch-Positiv-Rate, gemessen anhand eines ähnlichen Datensatzes akademischer Aufsätze, beträgt 0,004 %, was 1 zu 25.000 entspricht.

Das ist ein erheblicher Unterschied. An einer großen Forschungsuniversität werden pro Jahr möglicherweise 100.000 Arbeiten eingereicht. Das entspricht einem Unterschied von 500 falschen Meldungen bei Turnitin und nur 4 bei Pangram.

GPTZero

Die auf der Website von GPTZero angegebene Falsch-Positiv-Rate

GPTZero gibt eine Falsch-Positiv-Rate von 1 % an, was doppelt so schlecht ist wie bei Turnitin und 250-mal schlechter als bei Pangram.

Wir haben GPTZero und Pangram intern anhand einer kleineren Auswahl von Dokumenten aus unserem allgemeinen VIP-Set verglichen, um einen fairen Vergleich zu gewährleisten. Wir haben festgestellt, dass die Falsch-Positiv-Rate mit 2,01 % höher ist als angegeben.

Copyleaks

Die von Copyleaks auf ihrer Website angegebene Falsch-Positiv-Rate

Copyleaks gibt eine Falsch-Positiv-Rate von 0,2 % an, also 1 von 500, was, wenn es stimmt, 50-mal schlechter wäre als Pangram.

Außerdem sagt eine isolierte Zahl wie diese nicht alles aus. Wir wissen nicht, woher die Daten stammen und welche möglichen Verzerrungen bei der Bewertung aufgetreten sein könnten. Deshalb führen wir gründliche Benchmarks durch und veröffentlichen diesen Artikel, in dem wir unseren Prozess zur Bewertung unseres Modells detailliert beschreiben.

RAID-Benchmark

Wenn wir uns die RAID-Studie ansehen, die letztes Jahr von Liam Dugan und Co-Autoren veröffentlicht wurde (Studie Nr. 2 in unserem Forschungsüberblick), möchten wir Ihre Aufmerksamkeit auf die folgende Grafik lenken.

RAID-Studie zu Falsch-Positiv-Raten bei Detektoren

Die meisten Detektoren geben einen „Schwellenwert“ an, d. h. den Prozentsatz, bei dem das Modell den Text oberhalb dieser Grenze als KI-generiert und unterhalb dieser Grenze als von Menschen verfasst einstuft. Durch Verschieben des Schwellenwerts lassen sich falsch-positive und falsch-negative Ergebnisse gegeneinander abwägen.

In diesem Diagramm ist auf der x-Achse die durch die Verschiebung des Schwellenwerts verursachte Falsch-Positiv-Rate und auf der y-Achse die Recall-Rate dargestellt: Dabei handelt es sich um den Anteil der KI-Dokumente, die bei einer Bewertung anhand dieses Schwellenwerts als KI klassifiziert werden können.

Kurz gesagt: Die Detektoren unserer Mitbewerber versagen, wenn sie zu einer Falsch-Positiv-Rate von unter 1 Prozent gezwungen werden, d. h. sie wären nicht in der Lage, KI zu erkennen, wenn der Schwellenwert niedrig genug ist, um eine FPR von 1 Prozent zu erzielen.

Wie bewerten wir die Falsch-Positiv-Rate von Pangram?

Pangram durchläuft einen äußerst strengen Freigabe- und Testprozess, bevor ein neues Modell in unserem Dashboard und unserer API eingesetzt werden darf.

Während unserer Qualitätssicherung führen wir drei Arten von Tests auf Fehlalarme durch, die jeweils ein Gleichgewicht zwischen quantitativer und qualitativer Bewertung herstellen. Unsere Bewertungen umfassen:

  1. Groß angelegte Holdout-Sets. Etwa 10.000 bis 10.000.000 Beispiele pro Set. Hierbei handelt es sich um groß angelegte, frei zugängliche Internet-Datenbanken aus der Zeit vor ChatGPT (2022), aus denen wir ein Holdout-Set ausgewählt haben, das nicht trainiert wurde und ausschließlich zu Bewertungszwecken beiseite gelegt wurde.

  2. Mittelgroße VIP-Sets. Etwa 1.000 Beispiele pro Set. Hierbei handelt es sich um Datensätze, die Ingenieure oder Labeler aus seriösen Quellen manuell zusammengestellt, mit dem Auge überprüft und persönlich als von Menschen verfasst validiert haben. Obwohl geschulte Experten gut darin sind, KI-generierte Inhalte mit dem Auge zu erkennen, machen sie gelegentlich Fehler. Daher überprüfen wir die Daten regelmäßig und bereinigen sie, um ihre Genauigkeit sicherzustellen.

  3. Herausforderungssätze. Ungefähr 10 bis 100 Beispiele pro Satz. Dabei handelt es sich um zuvor gemeldete Fehlalarme, schwierige Fälle, die uns unsere Freunde geschickt haben, und generell interessante Beispiele, bei denen wir wissen möchten, wie wir abschneiden. Wir sammeln auch Beispiele für ungewöhnliche Texte, wie Rezepte, Gedichte, Drehbücher und andere schriftliche Formen, die in großen Sprachmodell-Trainingssets nicht gut vertreten sind, und betrachten diese ebenfalls als Herausforderungs-Sets sowie als allgemeinen Maßstab dafür, wie gut unser Modell funktioniert, wenn es „außerhalb der Verteilung” eingesetzt wird.

Zusätzlich zu diesen drei Arten der Qualitätssicherung führen wir auch Unit-Tests durch. Diese Unit-Tests dienen, salopp gesagt, dazu, unser Modell auf sogenannte „peinliche Fehler“ zu überprüfen. Unsere aktuelle Unit-Test-Suite verlangt von uns, dass wir Dokumente wie die Unabhängigkeitserklärung, berühmte Zeilen aus der Literatur sowie Texte unserer eigenen Website und Blog-Beiträge als menschlich einstufen. Wenn auch nur einer dieser Unit-Tests fehlschlägt, blockieren wir die Bereitstellung eines neuen Modells und kehren zum Reißbrett zurück. Eine unserer Leitphilosophien bei der Bewertung ist es, diese „peinlichen Fehler“ äußerst aufmerksam zu verfolgen und zu überwachen, damit sie bei der Veröffentlichung eines neuen Modells niemals wieder auftreten.

Diagramm, das die drei Arten von Bewertungssätzen zeigt, die bei Pangram verwendet werden: groß angelegte Holdout-Sätze (über 10 Millionen Beispiele), mittelgroße VIP-Sätze (über 1000 Beispiele) und Challenge-Sätze (10 bis 100 Beispiele)

Menschen mit einer mathematischen und wissenschaftlichen Neigung könnten fragen: Warum braucht man qualitative Bewertungen? Sind mehr Stichproben nicht immer besser?

Meine Antwort darauf wäre: Mehr Stichproben sind nicht immer besser. Wie ein weiser Prophet einmal sagte: Es gibt Lügen, verdammte Lügen und Statistiken. Aber im Ernst: Wir glauben, dass man bei der Erstellung eines großen Datensatzes in großem Maßstab immer eine gewisse Verzerrung einbringt. Und wenn Sie einen Datensatz haben, der so groß ist, dass Sie nicht jedes Beispiel überprüfen können, wissen Sie nicht, ob Ihr Modell zu sehr an eine Verzerrung im Datensatz angepasst ist, die dazu führt, dass es im Test gut abschneidet, in der realen Welt jedoch schlecht. (Nebenbei bemerkt glauben wir, dass dies der Grund dafür ist, warum es viele Online-KI-Detektoren gibt, die eine „Genauigkeit von 99 %“ angeben, aber bei einem tatsächlichen Test nicht einmal annähernd so genau sind).

Ein lustiges Beispiel, das die Bedeutung dieser vielfältigen Testsuiten verdeutlicht, ereignete sich in den Anfängen von Pangram, als wir Wikipedia zum ersten Mal in den Trainingssatz einführten. Einer unserer ersten fehlgeschlagenen Versuche schnitt beim Holdout-Satz hervorragend ab, beim VIP-Satz, der aus handverlesenen Wikipedia-Artikeln bestand, jedoch sehr schlecht. Wir stellten schließlich fest, dass in dem von uns verwendeten Huggingface-Datensatz auf der menschlichen Seite die im Internationalen Phonetischen Alphabet ausgedrückte Namensaussprache auf eine wirklich seltsame Weise umformatiert wurde, an die sich das Modell übermäßig anpasste: Es betrachtete lediglich die Formatierung des Namens und schloss dann anhand der Formatierung, ob es sich bei dem Dokument um KI oder einen Menschen handelte. Das funktionierte hervorragend beim Holdout-Set, aber in der Praxis war das Modell ohne diesen speziellen Hinweis völlig nutzlos! Daher ist es so wichtig, einen Test-Datensatz zu haben, der genau widerspiegelt, welche Art von Text Pangram in der Praxis sehen wird.

Bevor wir ein Modell an Kunden bei Pangram ausliefern, durchlaufen wir ein strenges Freigabeverfahren, das sowohl quantitative als auch qualitative Bewertungen umfasst. Dabei unterziehen wir das Modell einem Stresstest und überprüfen seine Leistung im Vergleich zum aktuellen Modell.

  1. Quantitative Bewertung: bedeutet, dass die Metriken für die Falsch-Positiv-Rate bei allen Holdouts, VIP-Sets und Challenge-Fällen nicht regressiert werden sollten.

  2. Qualitative Bewertung: In den meisten Fällen werden einige Beispiele verbessert und andere verschlechtert. Wann immer möglich, überprüfen wir die verschlechterten Beispiele manuell und stellen sicher, dass die Fehler erklärbar sind. Dies ist oft nuanciert und spezifisch für die jeweiligen Hypothesen, die wir testen, aber im Allgemeinen möchten wir sicherstellen, dass die Fehlerfälle kein bestimmtes Muster aufweisen, das sich nach der Bereitstellung auf Fehler in der realen Welt verallgemeinern lässt.

  3. Vibe Check / Red Teaming: Sobald die quantitative und qualitative Bewertung abgeschlossen ist, führen wir einen „Vibe Check” des Modells durch, indem wir es an das Team senden und es bitten, eine Weile damit zu experimentieren. Bei einigen Updates lassen wir das Modell möglicherweise auch von internen Testern oder Beta-Kunden testen, bevor wir es öffentlich veröffentlichen (in der Regel ermutigen wir sie, Fälle zu finden, die das Modell außer Kraft setzen!).

  4. Retroaktive A/B-Tests: Wir führen Offline-Inferenzen zu unseren alten Vorhersagen durch und untersuchen die Unterschiede zwischen dem alten und dem neuen Modell. Wir verfügen nicht immer über die Grundwahrheit für Daten, die wir zuvor inferiert haben, aber auch hier suchen wir nach konsistenten Mustern, die reale Fehlerfälle aufzeigen könnten.

Zusammenfassend lässt sich sagen, dass wir zwar bei der Messung der Leistung unseres Modells mit Metriken und Statistiken äußerst gründlich und wissenschaftlich vorgehen, uns jedoch nicht nur auf Zahlen verlassen, um uns ein vollständiges Bild zu verschaffen. Wir vertrauen auch unseren Augen, unserer Intuition und unserer Fähigkeit zur Mustererkennung, um das Modell zu überprüfen und Fehlermuster zu finden, die unsere Metriken möglicherweise übersehen haben. Außerdem verlassen wir uns auf unser Team aus Testern, Red-Teamern und Beta-Kunden, um Lücken zu finden, die das Team möglicherweise übersehen hat.

Mit welchen Techniken erreichen wir eine so niedrige Falsch-Positiv-Rate?

Die Aufrechterhaltung einer niedrigen Falsch-Positiv-Rate ist ein zentraler Bestandteil unserer Forschungsmission. Hier sind einige der Techniken, die wir bisher eingesetzt haben, um eine erstklassige Fehlerrate zu erzielen.

Umfassende Abdeckung der Trainingsdaten

Während KI-Detektoren von Mitbewerbern zwar „für den akademischen Bereich/Schulen/den Unterricht/Pädagogen entwickelt“ sein mögen, könnte dies in Wirklichkeit bedeuten, dass ihr Trainingssatz ausschließlich akademische Texte enthält.

Andererseits haben wir Pangram entwickelt, um die bittere Lektion zu nutzen: dass allgemeine Lernalgorithmen, die mit großen Datenmengen aus einer Vielzahl von Quellen trainiert wurden, effektiver sind als spezifische Modelle, die mit domänenspezifischen Daten trainiert wurden.

Das bedeutet, dass wir unseren KI-Detektor anhand einer Vielzahl von Texten trainieren: kreative, technische, wissenschaftliche, enzyklopädische Texte, Rezensionen, Websites, Blogbeiträge ... die Liste lässt sich beliebig fortsetzen. Der Grund dafür ist ähnlich wie bei einer umfassenden geisteswissenschaftlichen Ausbildung: Durch die Auseinandersetzung mit vielen Disziplinen und Schreibstilen kann das Modell neue Fälle besser verstehen und verallgemeinern. Entsprechend dem allgemeinen Trend im Bereich des KI-Trainings werden ChatGPT und andere große Sprachmodelle nicht mit spezifischen Daten für bestimmte Anwendungsfälle trainiert, sondern mit allgemeinen groß angelegten Textdaten, damit sie über allgemeine Intelligenz verfügen: Wir glauben an dieselbe Strategie für das Training von KI-Detektoren, die robust gegenüber allen verschiedenen allgemeinen Textarten sind, die ein LLM produzieren kann.

Hard Negative Mining / Aktives Lernen

Wir haben ausführlich über unseren aktiven Lernalgorithmus geschrieben, der eine Technik namens „Hard Negative Mining“ nutzt, und wir glauben, dass dies der Hauptgrund dafür ist, dass wir unsere Falsch-Positiv-Rate auf nahezu Null senken konnten.

Im Wesentlichen funktioniert dies deshalb, weil die meisten Beispiele in der Praxis „einfache Beispiele” sind – sobald das Modell die grundlegenden Muster dessen gelernt hat, was menschlich und was KI ist, ist es sehr einfach, für den Großteil des Datensatzes zu unterscheiden, was was ist. Damit erreicht man jedoch nur eine Genauigkeit von etwa 99 %. Um die letzten paar Zehntelprozent an Genauigkeit zu erreichen, müssen wir die schwierigsten Fälle finden, um das Modell zu trainieren: Wir können uns diese Fälle als solche vorstellen, in denen ein Mensch sich einfach entscheidet, in einer sehr ähnlichen Weise wie ein KI-Sprachmodell zu schreiben, dies aber tatsächlich nur zufällig tut. Um diese schwierigen Negativbeispiele zu finden, führen wir eine groß angelegte Suche in internetbasierten Datensätzen durch, wie sie zum Trainieren von LLMs verwendet werden, und führen dann eine synthetische Spiegelung durch, um ähnlich klingende KI-Beispiele zu generieren. Weitere Details finden Sie auf unserer Seite „So funktioniert es”.

Verlustgewichtung und Überabtastung

Wir formulieren unser Optimierungsziel so, dass das Modell auch während des Trainings selbst Falsch-Positiv-Ergebnisse gegenüber Falsch-Negativ-Ergebnissen priorisiert. Wenn das Modell ein menschliches Dokument falsch interpretiert, wird es mit einem viel höheren Faktor „bestraft“ als bei einer falschen Interpretation eines KI-Dokuments. Dies zwingt das Modell zu einer konservativen Vorgehensweise und dazu, ein Dokument nur dann als KI-Dokument vorherzusagen, wenn es sich absolut sicher ist.

Kalibrierung

Dies bezieht sich auf die Schwellenwertwahl, wie sie in RAID beschrieben ist. Wir wählen unseren Schwellenwert auf der Grundlage der Auswertung von Millionen von Dokumenten in unseren Bewertungssätzen, um einen angemessenen Kompromiss zwischen Falsch-Positiv- und Falsch-Negativ-Raten zu finden. Mit unserer Schwellenwertwahl versuchen wir, ein Gleichgewicht zwischen einer angemessenen Falsch-Negativ-Rate und einer möglichst geringen Falsch-Positiv-Rate zu finden.

Mitnehmen

  • Pangram weist eine deutlich geringere Falsch-Positiv-Rate auf als Konkurrenzprodukte.
  • Die extrem niedrige Falsch-Positiv-Rate von Pangram ist auf eine Kombination aus Umfang, Training und Suche zurückzuführen.
  • Da die Falsch-Positiv-Rate bei der KI-Erkennung so wichtig ist, haben wir eine äußerst umfassende Test- und Qualitätssicherungssuite entwickelt und einen gründlichen Freigabeprozess eingerichtet, der eine sorgfältige statistische Auswertung mit eher unübersichtlichen, qualitativen menschlichen Beurteilungen und Stimmungschecks kombiniert.

Wir arbeiten gerne mit Forschern zusammen, um die allgemeine Genauigkeit unserer Software zu verbessern, und setzen uns leidenschaftlich für offene Benchmarks und Transparenz bei der KI-Erkennung ein. Bei Fragen zur Zusammenarbeit mit uns, zu Kooperationsmöglichkeiten oder zur Genauigkeit von Pangram wenden Sie sich bitte an info@pangram.com.

Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.