Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Machen Sie Ihr Unternehmen LLM- und GenAI-sicher

Max Spero und Theodoros Evgeniou
30. Januar 2024

Die „Person des Jahres 2023” war wohl die KI. Wir alle waren überrascht von der Geschwindigkeit der Innovation und den Fähigkeiten von Large Language Models (LLMs) und generativer KI (GenAI) im Allgemeinen. Gleichzeitig werfen viele, insbesondere auf Online-Plattformen, Fragen zu den potenziellen Risiken dieser Technologien auf – siehe diesen Artikel der Harvard Business Review, in dem einige KI-Risiken beschrieben werden. Online-Plattformen könnten bald mit KI-generierten Inhalten überflutet werden, was Auswirkungen auf die Sicherheit und Bindung ihrer Nutzer sowie auf den Ruf der Plattformen haben könnte. Es gibt bereits Start-ups, die Tools zur Generierung und Verbreitung großer Mengen von GenAI-Inhalten anbieten.

KI und GenAI können jedoch auch zu unserem Vorteil genutzt werden, um diese Risiken zu bewältigen und sicherere digitale Räume und Online-Plattformen zu schaffen, wie einige Ideen aus dem jüngsten Trust & Safety Hackathon zeigen. Angesichts der Entwicklung neuer Tools ist es an der Zeit, Bilanz zu ziehen, wo wir in Bezug auf die neuesten Innovationen und Prozesse zur Bewältigung der Risiken stehen, denen Online-Plattformen aufgrund von GenAI ausgesetzt sind.

Dieser Artikel kann Ihnen helfen, Fragen zu beantworten wie:

  • Wie können wir unser Unternehmen, unsere Online-Communities und unsere Nutzer am besten vor der Flut von KI-generierten Inhalten schützen (z. B. vor Bewertungs-Spam bis hin zu illegalen Inhalten, die gegen das Urheberrecht und andere Gesetze verstoßen)?
  • Können KI-generierte Inhalte erkannt werden?
  • An welchem Punkt im Lebenszyklus von KI-generierten Inhalten können Sicherheitsvorkehrungen getroffen werden, und wie?
  • Wie gestalten sich die entsprechenden Vorschriften in den verschiedenen Märkten und was bedeuten sie für Sie?

Entwickeln Sie Ihre GenAI-Richtlinie unter Berücksichtigung Ihres Geschäftsmodells und Ihrer Anforderungen.


Jedes Unternehmen mit nutzergenerierten Inhalten benötigt eine GenAI-Richtlinie. Im Allgemeinen sind dabei zwei Fragen zu klären: Möchten Nutzer KI-generierte Inhalte sehen, und sind sie damit einverstanden, dass KI-Inhalte mit menschlichen Inhalten vermischt werden?

Wenn Sie eine dieser Fragen mit „Nein“ beantworten, benötigen Sie eine Richtlinie für KI-Inhalte. Beispielsweise können Sie verlangen, dass KI-Inhalte offengelegt werden, oder KI-Inhalte ausdrücklich verbieten. Eine solche Richtlinie kann von menschlichen Moderatoren mit einem scharfen Blick und effektiven Prozessen mit Tools wie Pangram Labs durchgesetzt werden.

Wenn die Antwort „Ja“ lautet – die Nutzer sind mit KI-Inhalten einverstanden oder begeistert davon –, dann sind Sie aus politischer Sicht auf der sicheren Seite. Bevor Sie jedoch KI-Tools wie die KI-gestützten Nachrichten von Linkedin direkt einführen, müssen Sie dennoch sicherstellen, dass die Inhalte sicher sind. Dazu benötigen Sie einige Leitplanken und, was noch wichtiger ist, Sie müssen stets Prozesse einrichten, um KI-generierte Inhalte effektiv und effizient zu moderieren, ähnlich wie bei der Moderation von nutzergenerierten Inhalten, beispielsweise mit Tools wie der Moderationsplattform von Tremau.

Natürlich hängt Ihre GenAI-Richtlinie von Ihrem Unternehmen und Ihrem Kontext ab. Es gibt keine Einheitslösung. Wenn Sie beispielsweise einen Marktplatz oder eine Plattform betreiben, auf der Nutzer sich auf die Bewertungen anderer Nutzer verlassen, müssen Sie möglicherweise sicherstellen, dass keine KI-generierten Bewertungen auf Ihre Plattform gelangen. Generell müssen Sie auch sicherstellen, dass keine illegalen Inhalte, die von KI generiert wurden, ähnlich wie nutzergenerierte Inhalte, auf Ihrer Plattform zu finden sind. Bots und Spam waren schon immer eine Herausforderung, aber mit der Leistungsfähigkeit von GenAI sind sie noch mächtiger und schwerer zu fassen.

KI-Sicherheitsvorkehrungen verstehen und nutzen


Die meisten kommerziellen KI-APIs bieten eine Art KI-Sicherheitsbarriere. Die Gemini-API von Google bewertet ihre Ergebnisse automatisch anhand von vier Sicherheitskategorien: Hassrede, Belästigung, sexuell eindeutige Inhalte und gefährliche Inhalte. Wenn Sie die OpenAI-API von Azure verwenden, erhalten Sie ähnliche Bewertungen basierend auf den Inhaltsfiltern „Hass und Fairness“, „Sexualität“, „Gewalt“ und „Selbstverletzung“. Beide APIs lehnen Anfragen ab, die in einer dieser Kategorien zu hoch bewertet werden, überlassen Ihnen jedoch die Entscheidung über mittlere Sicherheitsstufen.

Wenn Sie ein Open-Source-Modell wie Llama-2 oder Mistral verwenden, müssen Sie Ihren eigenen Inhaltsfilter erstellen. Dies kann durch einen separaten Aufruf eines Closed-Source-Klassifikators (OpenAI-Inhaltsfilter-API, Azure-API für KI-Inhaltssicherheit) oder einer Open-Source-Lösung wie dem neu veröffentlichten LlamaGuard von Meta gelöst werden. LlamaGuard ist ein auf einem LLM-Modell mit 7 Milliarden Parametern basierendes Modell, das sehr gute Benchmark-Ergebnisse erzielt. Es ist vielversprechend für die Klassifizierung von Eingaben und Antworten sowie für die allgemeine Inhaltsmoderation.

Stellen Sie sicher, dass weiterhin Menschen involviert sind und Ihre Prozesse den Vorschriften entsprechen.


Unabhängig davon, welche automatisierten Tools Sie zum Schutz Ihrer Nutzer und Ihres Unternehmens einsetzen, kann keine Technologie Sie vollständig schützen. Alle von Ihnen verwendeten KI-Tools werden immer Fehler machen. Sie müssen sicherstellen, dass solche Fehler Sie nicht operativen, kundenbezogenen oder regulatorischen Risiken aussetzen.

Zunächst müssen Sie immer Menschen in den Prozess einbeziehen, die zumindest einen Teil der Inhalte überprüfen, die die Tools zur Überprüfung markieren. Natürlich müssen Ihre Prozesse zur Überprüfung von Inhalten effektiv und effizient sein. Ironischerweise gilt: Je mehr KI-Tools auf dem Markt verfügbar sind (z. B. zur Erstellung oder Moderation von Inhalten), desto mehr Menschen müssen Sie in einigen Fällen möglicherweise einbeziehen.

Zweitens müssen alle Prozesse und Praktiken der Inhaltsmoderation unter Berücksichtigung der Sicherheit und Bindung Ihrer Nutzer – und damit auch Ihres Geschäfts – konzipiert werden. Was passiert, wenn Fehler bei der Moderation Bedenken hervorrufen? Wie stellen Sie sicher, dass Ihre Nutzer bei Bedarf ein Mitspracherecht haben, um Ihre Entscheidungen – oder die Ihrer KI – zu korrigieren? Wie stellen Sie sicher, dass Ihre Moderatoren über alles verfügen, was sie benötigen, um die besten Moderationsentscheidungen so effizient und effektiv wie möglich zu treffen? Um diese und andere Komplexitäten zu bewältigen, müssen Sie Ihre Prozesse sorgfältig durchdenken und effektiv automatisieren, beispielsweise mit Tools wie der Content-Moderationsplattform von Tremau.

Schließlich wird 2024 das Jahr sein, in dem Sie wirklich doppelt so viel Aufwand betreiben müssen, um sicherzustellen, dass Sie nicht zu den Unternehmen gehören, die von den Regulierungsbehörden mit Geldstrafen belegt werden. Der Digital Services Act der EU wird für alle in Europa tätigen Online-Plattformen in Kraft treten und Sie dazu verpflichten, Ihre Prozesse neu zu gestalten und Berichte, wie z. B. Transparenzberichte, vorzulegen – oder andernfalls mit Geldstrafen zu rechnen. Natürlich ist die Einhaltung der Vorschriften unabhängig davon erforderlich, ob Ihre Plattform von KI betroffen ist oder diese nutzt.

Wie können wir Ihnen helfen? Bei Checkfor.ai und Tremau arbeiten wir daran, Ihnen dabei zu helfen, sich in der neuen Welt leistungsstarker KI und neuer Vorschriften bestmöglich zurechtzufinden.

Weitere Informationen erhalten Sie unter info@tremau.com und info@pangram.com.



Theodoros Evgeniou ist Mitbegründer und Chief Innovation Officer von Tremau, Professor am INSEAD, Mitglied des OECD-Expertennetzwerks für KI, Berater des BCG Henderson Institute und war akademischer Partner für KI beim Weltwirtschaftsforum. Er hat vier Abschlüsse vom MIT, darunter einen Doktortitel im Bereich KI.

Max Spero ist Mitbegründer und CEO von Pangram Labs. Zuvor war er als Softwareentwickler bei Google und Nuro tätig, wo er Datenpipelines aufbaute und Modelle für maschinelles Lernen trainierte. Er hat einen Bachelor- und Master-Abschluss in Informatik von der Stanford University.

Dieser Artikel wurde im Januar 2024 gemeinsam mit Tremau veröffentlicht.

Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.