Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Jeden Tag wird mehr und mehr Code mit KI geschrieben. Laut Sundar Pichai, CEO von Google, wurden Ende 2024 über 25 % des Codes von Google von KI geschrieben. Der CEO von Robinhood sagt, dass der Großteil des bei Robinhood ausgelieferten Codes mittlerweile von KI geschrieben wird. Der Begriff „Vibe Coding” (bekannt geworden durch einen Tweet von Andrej Karpathy) hat Eingang in den allgemeinen Sprachgebrauch gefunden: Er bezeichnet den Zustand, in dem man sich vollständig den „Vibes” des Codierens hingibt und die KI das Steuer übernehmen und den Code für einen schreiben lässt.
Startups wie Cursor, Lovable und Replit versuchen, die Einstiegshürden für das Programmieren zu beseitigen: Das bedeutet, dass der Einstieg in die Programmierung so einfach ist, dass jeder im Unternehmen Code erstellen oder sogar eine vollständige Website oder App erstellen kann, ohne Kenntnisse in Python oder React zu haben.
Die StackOverflow-Entwicklerumfrage 2025 zeigt, wie weit verbreitet dieser Trend mittlerweile ist. 84 % der Entwickler nutzen KI-Tools in ihrem Entwicklungsworkflow oder planen deren Einsatz, wobei 51 % der professionellen Entwickler KI-Tools täglich verwenden. Dies stellt eine bedeutende Veränderung in der Art und Weise dar, wie Code in der gesamten Branche geschrieben wird.
Die Umfrage zeigt jedoch auch, dass diese Ära der KI-gestützten Entwicklung mit Wachstumsschwierigkeiten einhergeht. Zwar geben 52 % der Entwickler an, dass KI-Tools ihre Produktivität positiv beeinflusst haben, doch ist die positive Einstellung gegenüber KI-Tools von über 70 % auf 60 % im Jahr 2025 gesunken. Nach einer anfänglichen „Flitterwochenphase” der Erkundung dieser KI-generierten Tools scheinen die Entwickler ihnen nun eher neutral gegenüberzustehen.
Die Ursache für die Frustration ist aufschlussreich: 66 % der Entwickler sind frustriert über „KI-Lösungen, die fast richtig sind, aber nicht ganz“, und 45 % finden, dass das Debuggen von KI-generiertem Code zeitaufwändiger ist als erwartet. Nur 3 % der Entwickler „vertrauen den Ergebnissen von KI-Tools sehr“, während 46 % der Genauigkeit von KI-Tools aktiv misstrauen.
Dies führt zu einem interessanten Paradoxon: Entwickler verlassen sich beim Schreiben von Code zunehmend auf KI, vertrauen aber nicht vollständig auf das, was diese produziert. Wie die Umfrage zeigt, würden 75 % der Entwickler weiterhin einen Menschen um Hilfe bitten, wenn sie „den Antworten der KI nicht vertrauen“, und sich selbst als „letztendliche Richter über Qualität und Korrektheit“ positionieren. Simon Willison sagt, er würde „keinen KI-generierten Code für Projekte verwenden, die er veröffentlichen möchte, ohne jede Zeile überprüft zu haben. Es besteht nicht nur die Gefahr von Halluzinationen, sondern der Chatbot möchte auch gefallen und sagt daher möglicherweise, dass eine unbrauchbare Idee funktioniert. Das ist ein besonderes Problem für diejenigen von uns, die nicht wissen, wie man den Code bearbeitet. Wir riskieren, Software mit eingebauten Problemen zu erstellen.”
Auch wenn KI-generierter Code nicht mehr wegzudenken ist, gibt es definitiv einige Bereiche, in denen es nach wie vor sinnvoll ist, zu überprüfen, ob der Code von Menschen geschrieben wurde.
Bei der Einstellung eines Softwareentwicklers ist es wichtig zu beurteilen, ob der Programmierer in der Lage ist, ohne die Hilfe von KI qualitativ hochwertigen Code zu schreiben. Darüber hinaus ist es wichtig, sein Verständnis des Codes zu bewerten, damit er in seiner Arbeit fehlerhaften, von KI generierten oder KI-unterstützten Code erfolgreich debuggen und diagnostizieren kann.
In der Ausbildung ist es wichtig, den Schülern beizubringen, wie man ohne KI-Unterstützung programmiert. Bei zu viel KI-Unterstützung können die Schüler grundlegende Konzepte verpassen und das Erlernen der Fähigkeiten umgehen, die sie benötigen, um erfolgreiche Softwareentwickler zu werden. Obwohl es wahrscheinlich ist, dass diese Schüler während ihrer Arbeit Zugang zu KI-Unterstützung haben werden, wie die StackOverflow-Entwicklerumfrage andeutet, werden sie ohne eine solide Grundlage nicht in der Lage sein, fehlerhaften, von KI generierten Code zu korrigieren oder überhaupt zu verstehen, was überhaupt falsch ist.
Compliance und Sicherheit. Viele Compliance-Rahmenwerke betrachten KI-generierten Code aufgrund potenzieller Halluzinationen und Fehler als risikoreicher. Außerdem gibt es wichtige Überlegungen hinsichtlich Lizenzen und Urheberrechten – KI-Modelle können unbeabsichtigt Code mit inkompatiblen Lizenzen reproduzieren, was zu Compliance-Verstößen führen kann. Darüber hinaus gibt es offene Fragen dazu, ob KI-generierter Code als urheberrechtlich geschützt oder urheberrechtsfähig angesehen werden kann.
Herkunft und Code-Verfolgung. Vor der Einführung von KI war es mit Tools wie Git Blame einfach, nachzuverfolgen, wer jede einzelne Codezeile geschrieben hat und warum Änderungen vorgenommen wurden. Da KI große Mengen an Code generiert, wird es für Entwickler schwieriger, sich den Kontext und die Gründe hinter jeder Zeile zu merken. Die Möglichkeit, KI-generierten Code zu erkennen und zu verfolgen, hilft bei der Code-Wartung, der Fehlersuche und der Ressourcenverwaltung. CTOs und technische Führungskräfte können diese Informationen nutzen, um die Effektivität verschiedener KI-Modelle zu bewerten und sicherzustellen, dass ihre Teams die besten verfügbaren Tools verwenden.
Insgesamt ist Pangram in der Lage, den Großteil des KI-generierten Codes konservativ zu erkennen, insbesondere wenn der Code mehr als 40 Zeilen lang ist. Pangram ist konservativ, da es von Menschen geschriebenen Code selten als KI-generiert kennzeichnet, jedoch etwa 8 % des KI-generierten Codes übersieht und fälschlicherweise als von Menschen geschrieben einstuft.
Bei der Betrachtung aller Code-Schnipsel übersieht Pangram etwa 20 % des KI-generierten Codes, da die meisten kurzen KI-Code-Schnipsel Standardtexte sind, die sich nicht von menschlichem Code unterscheiden lassen oder einfach nicht genügend Signale enthalten, um erkannt zu werden.
| Metrisch | Punktzahl |
|---|---|
| Genauigkeit | 96,2 % (22.128/22.997) |
| Falsch-positiv-Rate | 0,3 % (39/13.178) |
| Falsch-negativ-Rate | 8,5 % (830/9.819) |
| Metrisch | Punktzahl |
|---|---|
| Genauigkeit | 89,4 % (41.395/46.319) |
| Falsch-positiv-Rate | 0,4 % (99/25.652) |
| Falsch-negativ-Rate | 23,3 % (4.825/20.667) |
Wir verwenden den GitHub-Datensatz, um diese Analyse durchzuführen. Für den KI-Code verwenden wir eine einfache zweistufige synthetische Spiegelungsphase:
Wir verwenden GPT-4o, Claude Sonnet, Llama 405b, Mistral 7B, Gemini 1.5 Flash und Gemini 1.5 Pro, um den Datensatz zu erstellen.
KI-generierter Code ist schwieriger zu erkennen als KI-generierte Texte, da es deutlich weniger Freiheitsgrade gibt: Im Vergleich zu einem Autor hat ein Programmierer weniger willkürliche stilistische Entscheidungen zu treffen. Wir stellen fest, dass viele der von uns beobachteten falsch-negativen Ergebnisse einfach nicht viel Raum für Kreativität oder Flexibilität bieten, wie beispielsweise automatisch generierter Standardcode oder Konfigurationsdateien. Low-Level-Sprachen wie C, Assembly und Compiler-Code sind ebenfalls viel strenger in ihrer Syntax, sodass es weniger Anhaltspunkte gibt, um zu erkennen, wann Code von KI generiert wurde.
Wenn Sie nach Anzeichen für KI-generierten Code suchen, empfehlen wir Folgendes:
