Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Wie wir letzte Woche besprochen haben, neigt KI dazu, bestimmte Wörter und Ausdrücke übermäßig zu verwenden. Einige davon fallen Ihnen vielleicht spontan ein: von „ein Beweis für“ bis „vertiefen“. Wenn Sie genügend dieser Ausdrücke sehen, kann dies ein deutlicher Hinweis darauf sein, dass es sich bei dem Text, mit dem Sie sich beschäftigen, um einen KI-generierten Text handelt, aber es gibt viel zu viele davon, als dass eine einzelne Person sie alle im Blick behalten könnte.
Um dieses Problem zu lösen, haben wir kürzlich ein Tool namens „AI phrases“ eingeführt, mit dem wir diese Ausdrücke gezielt hervorheben. Im Rahmen der Entwicklung dieses Tools haben wir einen umfangreichen Datensatz mit den am häufigsten verwendeten AI-Ausdrücken erstellt. In diesem Artikel stellen wir Ihnen einige der häufigsten AI-Ausdrücke aus unserem Datensatz vor und erklären, wie Sie diese nutzen können, um Ihr Gespür für KI-generierte Texte zu schärfen.
Wir sollten mit dem Offensichtlichsten beginnen: Manchmal sagt Ihnen eine KI tatsächlich, dass sie eine KI ist! Oft geschieht dies als Folge einer Ablehnung. Wenn ein Benutzer eine KI um etwas gebeten hat, was ihr nicht tun darf, muss sie dem Benutzer mitteilen, dass sie der Anfrage nicht nachkommen kann, und dabei gibt das Modell oft zu erkennen, dass es sich um eine KI handelt. Viele Ablehnungen durch KI beginnen mit dem Satz „Als KI-Sprachmodell ...“. Daraus folgt, dass solche Sätze in KI-Texten recht häufig vorkommen, in menschlichen Texten hingegen äußerst selten sind. Die Zahlen bestätigen dies! Viele unserer häufigsten KI-Sätze sind selbstreferenziell.
| Phrase | Häufiger |
|---|---|
| Als KI-Sprachmodell | 294,000x |
| Ich habe keine persönlichen | 67,000x |
| Leider habe ich nicht genug. | 54,000x |
| Sprachmodell, ich kann nicht | 53,000x |
KI-Artefakte gehören zu unseren „am häufigsten verwendeten“ KI-Ausdrücken, sind aber letztendlich ziemlich offensichtlich und daher eher uninteressant. Nun kommen wir zum interessanten Teil: Ausdrücke, die in KI-Texten zwar überrepräsentiert sind, aber nichts mit „KI sein“ zu tun haben. Hier sind einige Beispiele:
| Phrase | Häufiger |
|---|---|
| als ergreifend | 49,000x |
| Als eindringliche Erinnerung | 43,000x |
| Erinnerung an das Beständige | 31,000x |
| stand vor zahlreichen Herausforderungen | 30,000x |
| Unsere Ergebnisse liefern neue Erkenntnisse über | 22,000x |
| in das komplexe Zusammenspiel | 21,000x |
| dient als leistungsstarkes | 10,000x |
| wertvolle Einblicke in | 5,000x |
| dient als Zeugnis | 4,000x |
| neu entdeckte Sinnhaftigkeit | 4,000x |
| selbst angesichts des Unvorstellbaren | 3,000x |
| Erinnerung an das Potenzial | 3,000x |
Es ist leicht zu verstehen, warum eine KI, die „Als KI ...“ sagt, in KI-Texten viel häufiger vorkommt. Aber warum kommen die scheinbar nicht zusammenhängenden Phrasen in Teil 2 häufiger vor? Zunächst einmal gibt es ein Phänomen, das als „Modus-Kollaps“ bekannt ist, bei dem KI-Ausgaben durch die Verwendung von Wortfolgen mit hoher Wahrscheinlichkeit zu allgemein oder repetitiv werden. Modus-Kollaps ...
Darüber hinaus ist es nach dem Training üblich, RLHF (Reinforcement Learning from Human Feedback) durchzuführen. Während dieses Prozesses bewerten menschliche Annotatoren den von der KI generierten Text anhand einer Reihe von Attributen, um bestimmte Muster zu fördern und andere zu unterbinden. Wenn bestimmte Antworten oder Formulierungen während dieses Prozesses von diesen menschlichen Annotatoren mit hoher Wahrscheinlichkeit belohnt werden, treten sie immer häufiger auf.
Infolgedessen können einige dieser überstrapazierten Phrasen eher als Merkmal bestimmter Modelle, Architekturen und Trainingsprozesse angesehen werden und nicht nur als Kennzeichen des KI-Schreibens an sich. Eine Studie von Jenna Russell, Marzena Karpinska und Mohit Iyyer von der University of Maryland zeigt, dass verschiedene Modelle tatsächlich unterschiedliche bevorzugte Phrasen haben:
überbeansprucht
Dies deutet darauf hin, dass verschiedene Modelle, die mit unterschiedlichen Datensätzen und Optimierungsstrategien trainiert wurden, ihre eigenen spezifischen Tendenzen bei der Phrasenwiederholung entwickeln können.
Im Rahmen unserer Arbeit hat unser Team unzählige Stunden damit verbracht, KI-generierte Texte zu lesen und zu analysieren. Natürlich haben wir eine Vorliebe für einige dieser Formulierungen entwickelt:
Hier sind die Lieblings-KI-Sätze unseres Teams:
Max (CEO): „In der sich ständig weiterentwickelnden“ (11.000x)
Bradley (CTO): „Wichtig zu beachten“ (3.000x)
Lu: (Gründungsingenieur): „komplexe Natur“ (6.000x)
Elyas (Gründungsingenieur): „lebendige Tapisserie“ (17.000x)
