Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen

Wie gut funktioniert Pangram bei KI-Code?

Bradley Emi
7. Oktober 2025

Jeden Tag wird mehr und mehr Code mit KI geschrieben. Laut Sundar Pichai, CEO von Google, wurden Ende 2024 über 25 % des Codes von Google von KI geschrieben. Der CEO von Robinhood sagt, dass der Großteil des bei Robinhood ausgelieferten Codes mittlerweile von KI geschrieben wird. Der Begriff „Vibe Coding” (bekannt geworden durch einen Tweet von Andrej Karpathy) hat Eingang in den allgemeinen Sprachgebrauch gefunden: Er bezeichnet den Zustand, in dem man sich vollständig den „Vibes” des Codierens hingibt und die KI das Steuer übernehmen und den Code für einen schreiben lässt.

Startups wie Cursor, Lovable und Replit versuchen, die Einstiegshürden für das Programmieren zu beseitigen: Das bedeutet, dass der Einstieg in die Programmierung so einfach ist, dass jeder im Unternehmen Code erstellen oder sogar eine vollständige Website oder App erstellen kann, ohne Kenntnisse in Python oder React zu haben.

Die StackOverflow-Entwicklerumfrage 2025 zeigt, wie weit verbreitet dieser Trend mittlerweile ist. 84 % der Entwickler nutzen KI-Tools in ihrem Entwicklungsworkflow oder planen deren Einsatz, wobei 51 % der professionellen Entwickler KI-Tools täglich verwenden. Dies stellt eine bedeutende Veränderung in der Art und Weise dar, wie Code in der gesamten Branche geschrieben wird.

Die Umfrage zeigt jedoch auch, dass diese Ära der KI-gestützten Entwicklung mit Wachstumsschwierigkeiten einhergeht. Zwar geben 52 % der Entwickler an, dass KI-Tools ihre Produktivität positiv beeinflusst haben, doch ist die positive Einstellung gegenüber KI-Tools von über 70 % auf 60 % im Jahr 2025 gesunken. Nach einer anfänglichen „Flitterwochenphase” der Erkundung dieser KI-generierten Tools scheinen die Entwickler ihnen nun eher neutral gegenüberzustehen.

Die Ursache für die Frustration ist aufschlussreich: 66 % der Entwickler sind frustriert über „KI-Lösungen, die fast richtig sind, aber nicht ganz“, und 45 % finden, dass das Debuggen von KI-generiertem Code zeitaufwändiger ist als erwartet. Nur 3 % der Entwickler „vertrauen den Ergebnissen von KI-Tools sehr“, während 46 % der Genauigkeit von KI-Tools aktiv misstrauen.

Dies führt zu einem interessanten Paradoxon: Entwickler verlassen sich beim Schreiben von Code zunehmend auf KI, vertrauen aber nicht vollständig auf das, was diese produziert. Wie die Umfrage zeigt, würden 75 % der Entwickler weiterhin einen Menschen um Hilfe bitten, wenn sie „den Antworten der KI nicht vertrauen“, und sich selbst als „letztendliche Richter über Qualität und Korrektheit“ positionieren. Simon Willison sagt, er würde „keinen KI-generierten Code für Projekte verwenden, die er veröffentlichen möchte, ohne jede Zeile überprüft zu haben. Es besteht nicht nur die Gefahr von Halluzinationen, sondern der Chatbot möchte auch gefallen und sagt daher möglicherweise, dass eine unbrauchbare Idee funktioniert. Das ist ein besonderes Problem für diejenigen von uns, die nicht wissen, wie man den Code bearbeitet. Wir riskieren, Software mit eingebauten Problemen zu erstellen.”

Die Bedeutung der Erkennung von KI-generiertem Code

Auch wenn KI-generierter Code nicht mehr wegzudenken ist, gibt es definitiv einige Bereiche, in denen es nach wie vor sinnvoll ist, zu überprüfen, ob der Code von Menschen geschrieben wurde.

  1. Bei der Einstellung eines Softwareentwicklers ist es wichtig zu beurteilen, ob der Programmierer in der Lage ist, ohne die Hilfe von KI qualitativ hochwertigen Code zu schreiben. Darüber hinaus ist es wichtig, sein Verständnis des Codes zu bewerten, damit er in seiner Arbeit fehlerhaften, von KI generierten oder KI-unterstützten Code erfolgreich debuggen und diagnostizieren kann.

  2. In der Ausbildung ist es wichtig, den Schülern beizubringen, wie man ohne KI-Unterstützung programmiert. Bei zu viel KI-Unterstützung können die Schüler grundlegende Konzepte verpassen und das Erlernen der Fähigkeiten umgehen, die sie benötigen, um erfolgreiche Softwareentwickler zu werden. Obwohl es wahrscheinlich ist, dass diese Schüler während ihrer Arbeit Zugang zu KI-Unterstützung haben werden, wie die StackOverflow-Entwicklerumfrage andeutet, werden sie ohne eine solide Grundlage nicht in der Lage sein, fehlerhaften, von KI generierten Code zu korrigieren oder überhaupt zu verstehen, was überhaupt falsch ist.

  3. Compliance und Sicherheit. Viele Compliance-Rahmenwerke betrachten KI-generierten Code aufgrund potenzieller Halluzinationen und Fehler als risikoreicher. Außerdem gibt es wichtige Überlegungen hinsichtlich Lizenzen und Urheberrechten – KI-Modelle können unbeabsichtigt Code mit inkompatiblen Lizenzen reproduzieren, was zu Compliance-Verstößen führen kann. Darüber hinaus gibt es offene Fragen dazu, ob KI-generierter Code als urheberrechtlich geschützt oder urheberrechtsfähig angesehen werden kann.

  4. Herkunft und Code-Verfolgung. Vor der Einführung von KI war es mit Tools wie Git Blame einfach, nachzuverfolgen, wer jede einzelne Codezeile geschrieben hat und warum Änderungen vorgenommen wurden. Da KI große Mengen an Code generiert, wird es für Entwickler schwieriger, sich den Kontext und die Gründe hinter jeder Zeile zu merken. Die Möglichkeit, KI-generierten Code zu erkennen und zu verfolgen, hilft bei der Code-Wartung, der Fehlersuche und der Ressourcenverwaltung. CTOs und technische Führungskräfte können diese Informationen nutzen, um die Effektivität verschiedener KI-Modelle zu bewerten und sicherzustellen, dass ihre Teams die besten verfügbaren Tools verwenden.

Die Fähigkeit von Pangram, KI-generierten Code zu erkennen

Insgesamt ist Pangram in der Lage, den Großteil des KI-generierten Codes konservativ zu erkennen, insbesondere wenn der Code mehr als 40 Zeilen lang ist. Pangram ist konservativ, da es von Menschen geschriebenen Code selten als KI-generiert kennzeichnet, jedoch etwa 8 % des KI-generierten Codes übersieht und fälschlicherweise als von Menschen geschrieben einstuft.

Bei der Betrachtung aller Code-Schnipsel übersieht Pangram etwa 20 % des KI-generierten Codes, da die meisten kurzen KI-Code-Schnipsel Standardtexte sind, die sich nicht von menschlichem Code unterscheiden lassen oder einfach nicht genügend Signale enthalten, um erkannt zu werden.

Genauigkeit bei Code mit mehr als 40 Zeilen Länge

MetrischPunktzahl
Genauigkeit96,2 % (22.128/22.997)
Falsch-positiv-Rate0,3 % (39/13.178)
Falsch-negativ-Rate8,5 % (830/9.819)

Genauigkeit aller Codeausschnitte

MetrischPunktzahl
Genauigkeit89,4 % (41.395/46.319)
Falsch-positiv-Rate0,4 % (99/25.652)
Falsch-negativ-Rate23,3 % (4.825/20.667)

Datensatz

Wir verwenden den GitHub-Datensatz, um diese Analyse durchzuführen. Für den KI-Code verwenden wir eine einfache zweistufige synthetische Spiegelungsphase:

  1. Bitten Sie den LLM, eine kurze Zusammenfassung des Inhalts des Kodex zu erstellen.
  2. Bitten Sie den LLM, ein Codebeispiel gemäß der zurückgegebenen Zusammenfassung zu schreiben.

Wir verwenden GPT-4o, Claude Sonnet, Llama 405b, Mistral 7B, Gemini 1.5 Flash und Gemini 1.5 Pro, um den Datensatz zu erstellen.

Empfehlungen zum Erkennen von KI-generiertem Code

KI-generierter Code ist schwieriger zu erkennen als KI-generierte Texte, da es deutlich weniger Freiheitsgrade gibt: Im Vergleich zu einem Autor hat ein Programmierer weniger willkürliche stilistische Entscheidungen zu treffen. Wir stellen fest, dass viele der von uns beobachteten falsch-negativen Ergebnisse einfach nicht viel Raum für Kreativität oder Flexibilität bieten, wie beispielsweise automatisch generierter Standardcode oder Konfigurationsdateien. Low-Level-Sprachen wie C, Assembly und Compiler-Code sind ebenfalls viel strenger in ihrer Syntax, sodass es weniger Anhaltspunkte gibt, um zu erkennen, wann Code von KI generiert wurde.

Wenn Sie nach Anzeichen für KI-generierten Code suchen, empfehlen wir Folgendes:

  • Kommentare: Oftmals werden Kommentare in KI-generiertem Code auf eine ganz bestimmte Art und Weise geschrieben. Wir haben außerdem festgestellt, dass KI-generierter Code viel mehr Kommentare enthält als normalerweise von Menschen geschriebener Code.
  • Interne Ähnlichkeit: KI-generierter Code ähnelt oft anderem KI-generierten Code, insbesondere bei individuellen Aufgaben in einem Programmierkurs. MOSS, das an der Stanford University entwickelte Measure of Software Similarity (Maß für die Ähnlichkeit von Software), ist für nichtkommerzielle Zwecke verfügbar, erkennt Code-Ähnlichkeiten effektiv und kann oft viele ähnlich aussehende KI-generierte Programmieraufgaben erkennen.
  • Pangram ist in der Lage, einen Großteil des von KI generierten Codes ohne Fehlalarme zu erkennen, jedoch sind Fehlalarme häufig. Pangram kann als Screening-Tool vertrauenswürdig eingesetzt werden, um zunächst einen Teil, jedoch nicht den gesamten von KI generierten Code-Plagiat zu erkennen.
Abonnieren Sie unseren Newsletter
Wir veröffentlichen monatliche Updates zu unserer Forschung im Bereich der KI-Erkennung.
Abonnieren Sie
, um unsere Updates zu erhalten.
Bleiben Sie mit unseren aktuellen Neuigkeiten und Angeboten auf dem Laufenden.
© 2025 Pangram. Alle Rechte vorbehalten.