Neu

Erkenne sofort, was auf Twitter, LinkedIn, Substack und anderen Plattformen von Menschen und was von KI stammt. Hol dir unsere neue Chrome-Erweiterung.

Weitere Informationen
Bildung

Wie gut funktioniert Pangram bei KI-Code?

7. Oktober 2025

Jeden Tag wird mehr und mehr Code mit KI geschrieben. Laut Sundar Pichai, CEO von Google, wurden Ende 2024 über 25 % des Codes von Google von KI geschrieben. Der CEO von Robinhood sagt, dass der Großteil des bei Robinhood ausgelieferten Codes mittlerweile von KI geschrieben wird. Der Begriff „Vibe Coding” (bekannt geworden durch einen Tweet von Andrej Karpathy) hat Eingang in den allgemeinen Sprachgebrauch gefunden: Er bezeichnet den Zustand, in dem man sich vollständig den „Vibes” des Codierens hingibt und die KI das Steuer übernehmen und den Code für einen schreiben lässt.

Startups wie Cursor, Lovable und Replit versuchen, die Einstiegshürden für das Programmieren zu beseitigen: Das bedeutet, dass der Einstieg in die Programmierung so einfach ist, dass jeder im Unternehmen Code erstellen oder sogar eine vollständige Website oder App erstellen kann, ohne Kenntnisse in Python oder React zu haben.

Die StackOverflow-Entwicklerumfrage 2025 zeigt, wie weit verbreitet dieser Trend mittlerweile ist. 84 % der Entwickler nutzen KI-Tools in ihrem Entwicklungsworkflow oder planen deren Einsatz, wobei 51 % der professionellen Entwickler KI-Tools täglich verwenden. Dies stellt eine bedeutende Veränderung in der Art und Weise dar, wie Code in der gesamten Branche geschrieben wird.

Die Umfrage zeigt jedoch auch, dass diese Ära der KI-gestützten Entwicklung mit Wachstumsschwierigkeiten einhergeht. Zwar geben 52 % der Entwickler an, dass KI-Tools ihre Produktivität positiv beeinflusst haben, doch ist die positive Einstellung gegenüber KI-Tools von über 70 % auf 60 % im Jahr 2025 gesunken. Nach einer anfänglichen „Flitterwochenphase” der Erkundung dieser KI-generierten Tools scheinen die Entwickler ihnen nun eher neutral gegenüberzustehen.

Die Ursache für die Frustration ist aufschlussreich: 66 % der Entwickler sind frustriert über „KI-Lösungen, die fast richtig sind, aber nicht ganz“, und 45 % finden, dass das Debuggen von KI-generiertem Code zeitaufwändiger ist als erwartet. Nur 3 % der Entwickler „vertrauen den Ergebnissen von KI-Tools sehr“, während 46 % der Genauigkeit von KI-Tools aktiv misstrauen.

Dies führt zu einem interessanten Paradoxon: Entwickler verlassen sich beim Schreiben von Code zunehmend auf KI, vertrauen aber nicht vollständig auf das, was diese produziert. Wie die Umfrage zeigt, würden 75 % der Entwickler weiterhin einen Menschen um Hilfe bitten, wenn sie „den Antworten der KI nicht vertrauen“, und sich selbst als „letztendliche Richter über Qualität und Korrektheit“ positionieren. Simon Willison sagt, er würde „keinen KI-generierten Code für Projekte verwenden, die er veröffentlichen möchte, ohne jede Zeile überprüft zu haben. Es besteht nicht nur die Gefahr von Halluzinationen, sondern der Chatbot möchte auch gefallen und sagt daher möglicherweise, dass eine unbrauchbare Idee funktioniert. Das ist ein besonderes Problem für diejenigen von uns, die nicht wissen, wie man den Code bearbeitet. Wir riskieren, Software mit eingebauten Problemen zu erstellen.”

Die Bedeutung der Erkennung von KI-generiertem Code

Auch wenn KI-generierter Code nicht mehr wegzudenken ist, gibt es definitiv einige Bereiche, in denen es nach wie vor sinnvoll ist, zu überprüfen, ob der Code von Menschen geschrieben wurde.

  1. Bei der Einstellung eines Softwareentwicklers ist es wichtig zu beurteilen, ob der Programmierer in der Lage ist, ohne die Hilfe von KI qualitativ hochwertigen Code zu schreiben. Darüber hinaus ist es wichtig, sein Verständnis des Codes zu bewerten, damit er in seiner Arbeit fehlerhaften, von KI generierten oder KI-unterstützten Code erfolgreich debuggen und diagnostizieren kann.

  2. In der Ausbildung ist es wichtig, den Schülern beizubringen, wie man ohne KI-Unterstützung programmiert. Bei zu viel KI-Unterstützung können die Schüler grundlegende Konzepte verpassen und das Erlernen der Fähigkeiten umgehen, die sie benötigen, um erfolgreiche Softwareentwickler zu werden. Obwohl es wahrscheinlich ist, dass diese Schüler während ihrer Arbeit Zugang zu KI-Unterstützung haben werden, wie die StackOverflow-Entwicklerumfrage andeutet, werden sie ohne eine solide Grundlage nicht in der Lage sein, fehlerhaften, von KI generierten Code zu korrigieren oder überhaupt zu verstehen, was überhaupt falsch ist.

  3. Compliance und Sicherheit. Viele Compliance-Rahmenwerke betrachten KI-generierten Code aufgrund potenzieller Halluzinationen und Fehler als risikoreicher. Außerdem gibt es wichtige Überlegungen hinsichtlich Lizenzen und Urheberrechten – KI-Modelle können unbeabsichtigt Code mit inkompatiblen Lizenzen reproduzieren, was zu Compliance-Verstößen führen kann. Darüber hinaus gibt es offene Fragen dazu, ob KI-generierter Code als urheberrechtlich geschützt oder urheberrechtsfähig angesehen werden kann.

  4. Herkunft und Code-Verfolgung. Vor der Einführung von KI war es mit Tools wie Git Blame einfach, nachzuverfolgen, wer jede einzelne Codezeile geschrieben hat und warum Änderungen vorgenommen wurden. Da KI große Mengen an Code generiert, wird es für Entwickler schwieriger, sich den Kontext und die Gründe hinter jeder Zeile zu merken. Die Möglichkeit, KI-generierten Code zu erkennen und zu verfolgen, hilft bei der Code-Wartung, der Fehlersuche und der Ressourcenverwaltung. CTOs und technische Führungskräfte können diese Informationen nutzen, um die Effektivität verschiedener KI-Modelle zu bewerten und sicherzustellen, dass ihre Teams die besten verfügbaren Tools verwenden.

Die Fähigkeit von Pangram, KI-generierten Code zu erkennen

Insgesamt ist Pangram in der Lage, den Großteil des KI-generierten Codes konservativ zu erkennen, insbesondere wenn der Code mehr als 40 Zeilen lang ist. Pangram ist konservativ, da es von Menschen geschriebenen Code selten als KI-generiert kennzeichnet, jedoch etwa 8 % des KI-generierten Codes übersieht und fälschlicherweise als von Menschen geschrieben einstuft.

Bei der Betrachtung aller Code-Schnipsel übersieht Pangram etwa 20 % des KI-generierten Codes, da die meisten kurzen KI-Code-Schnipsel Standardtexte sind, die sich nicht von menschlichem Code unterscheiden lassen oder einfach nicht genügend Signale enthalten, um erkannt zu werden.

Genauigkeit bei Code mit mehr als 40 Zeilen Länge

MetrischPunktzahl
Genauigkeit96,2 % (22.128/22.997)
Falsch-positiv-Rate0,3 % (39/13.178)
Falsch-negativ-Rate8,5 % (830/9.819)

Genauigkeit aller Codeausschnitte

MetrischPunktzahl
Genauigkeit89,4 % (41.395/46.319)
Falsch-positiv-Rate0,4 % (99/25.652)
Falsch-negativ-Rate23,3 % (4.825/20.667)

Datensatz

Wir verwenden den GitHub-Datensatz, um diese Analyse durchzuführen. Für den KI-Code verwenden wir eine einfache zweistufige synthetische Spiegelungsphase:

  1. Bitten Sie den LLM, eine kurze Zusammenfassung des Inhalts des Kodex zu erstellen.
  2. Bitten Sie den LLM, ein Codebeispiel gemäß der zurückgegebenen Zusammenfassung zu schreiben.

Wir verwenden GPT-4o, Claude Sonnet, Llama 405b, Mistral 7B, Gemini 1.5 Flash und Gemini 1.5 Pro, um den Datensatz zu erstellen.

Empfehlungen zum Erkennen von KI-generiertem Code

KI-generierter Code ist schwieriger zu erkennen als KI-generierte Texte, da es deutlich weniger Freiheitsgrade gibt: Im Vergleich zu einem Autor hat ein Programmierer weniger willkürliche stilistische Entscheidungen zu treffen. Wir stellen fest, dass viele der von uns beobachteten falsch-negativen Ergebnisse einfach nicht viel Raum für Kreativität oder Flexibilität bieten, wie beispielsweise automatisch generierter Standardcode oder Konfigurationsdateien. Low-Level-Sprachen wie C, Assembly und Compiler-Code sind ebenfalls viel strenger in ihrer Syntax, sodass es weniger Anhaltspunkte gibt, um zu erkennen, wann Code von KI generiert wurde.

Wenn Sie nach Anzeichen für KI-generierten Code suchen, empfehlen wir Folgendes:

  • Kommentare: Oftmals werden Kommentare in KI-generiertem Code auf eine ganz bestimmte Art und Weise geschrieben. Wir haben außerdem festgestellt, dass KI-generierter Code viel mehr Kommentare enthält als normalerweise von Menschen geschriebener Code.
  • Interne Ähnlichkeit: KI-generierter Code ähnelt oft anderem KI-generierten Code, insbesondere bei individuellen Aufgaben in einem Programmierkurs. MOSS, das an der Stanford University entwickelte Measure of Software Similarity (Maß für die Ähnlichkeit von Software), ist für nichtkommerzielle Zwecke verfügbar, erkennt Code-Ähnlichkeiten effektiv und kann oft viele ähnlich aussehende KI-generierte Programmieraufgaben erkennen.
  • Pangram ist in der Lage, einen Großteil des von KI generierten Codes ohne Fehlalarme zu erkennen, jedoch sind Fehlalarme häufig. Pangram kann als Screening-Tool vertrauenswürdig eingesetzt werden, um zunächst einen Teil, jedoch nicht den gesamten von KI generierten Code-Plagiat zu erkennen.

Bradley Emi
Bradley EmiCTO, Mitbegründer

Bradley ist KI-Forscher und Experte für die Entwicklung von Deep-Learning-Produkten in der Industrie. Zuletzt leitete er die Deep-Learning-Forschungsgruppe bei Absci, einem Unternehmen für generative KI-Arzneimittelforschung, und war zuvor Mitglied des Kernteams für Computer Vision bei Tesla Autopilot.

Während seines Studiums verfasste Bradley mehrere Publikationen im Bereich Deep Learning-Forschung am Stanford Vision Lab. Er hat einen Bachelor of Science in Physik und einen Master of Science in Künstlicher Intelligenz von der Stanford University. Neben KI interessiert er sich auch für Bildung und Philosophie und ist begeisterter Golfer.

Mehr von Bradley Emi

Weiterführende Literatur

Was ist Patchwork-Plagiat?
Bildung

Was ist Patchwork-Plagiat?

26. März 2026
Wird Google im Jahr 2026 KI-generierte Inhalte benachteiligen?
Bildung

Wird Google im Jahr 2026 KI-generierte Inhalte benachteiligen?

30. Januar 2026
Spieglein, Spieglein an der Wand, wer ist die Echteste im ganzen Land?
Bildung

Spieglein, Spieglein an der Wand, wer ist die Echteste im ganzen Land?

25. Juli 2025
Kann KI-Erkennung den Schreibstil von Claude erkennen?
Bildung

Kann KI-Erkennung den Schreibstil von Claude erkennen?

6. Dezember 2024
Wie man KI-Texte erkennt
Bildung

Wie man KI-Texte erkennt

17. Juni 2024
Die 5 besten KI-Tools für Schulen
Bildung

Die 5 besten KI-Tools für Schulen

29. Januar 2026