Wir geben eine neue Partnerschaft mit Proofig bekannt! Weitere Informationen
Willkommen zu unserem zweiten Mitarbeiter-Spotlight! Wir haben uns mit Katherine Thai, unserer Gründungswissenschaftlerin für KI-Forschung, zusammengesetzt, um über ihren einzigartigen Weg in die NLP, ihre Forschung zur Literaturanalyse und ihre Arbeit bei Pangram Labs zu sprechen. (Hinweis: Dieses Interview wurde transkribiert und zur besseren Lesbarkeit durch KI leicht überarbeitet.)
Wie sind Sie auf NLP aufmerksam geworden und haben sich für eine Promotion entschieden?
Anfangs habe ich mich nie direkt für NLP interessiert. Ich habe Mathematik, Informatik und Englisch studiert und viele Forschungsprogramme für Studierende absolviert, weil ich die Idee von Forschung und Experimentieren liebte, aber ich wusste nicht genau, was ich studieren wollte.
Als mein Abschlussjahr näher rückte, meinte ein Kommilitone, dass mein Englischstudium sich gut für NLP eignen würde, weil es um die Anwendung von Computern auf Texte geht. Ich hatte noch nie viel davon gehört – an meiner Uni gab es keine NLP-Forscher oder -Kurse.
Schließlich fand ich meinen jetzigen Berater, Mohit Iyyer, der sich mit dem narrativen Verständnis langer Geschichten und Bücher befasste. Das faszinierte mich sehr, da ich Bücher liebe und eine Bachelorarbeit mit dem Titel „Narrative Mechanismen der Frustration” geschrieben hatte. Als ich mich bewarb, dachte mein Betreuer, dass es sich dabei um technische Mechanismen der Informatik handelte, aber das war nicht der Fall – ich hatte damit lediglich beschrieben, was in der Literatur vor sich geht! Er fand meinen Hintergrund überzeugend und war der Meinung, dass meine mathematischen Kenntnisse mir helfen würden, die Grundlagen zu erlernen. Ich habe meinen ersten NLP-Kurs buchstäblich in meinem ersten Semester als Doktorand besucht.
Erzählen Sie uns etwas über Ihre Doktorarbeit.
Meine Dissertation trägt den Titel „Modi der Zusammenarbeit zwischen Mensch und KI im Textbereich: Benchmarks, Metriken und Interpretationsaufgaben“. Ich möchte verstehen, wie Sprachmodelle Texte interpretieren und tiefgreifendere Schlussfolgerungen ziehen können als Geisteswissenschaftler, anstatt sich nur auf oberflächliche Attribute zu beschränken.
Frühe NLP-Arbeiten zur Literatur konzentrierten sich darauf, benannte Entitäten aus Büchern zu extrahieren, Interaktionen zwischen Charakteren abzubilden und grobe Handlungsstränge zu erstellen. Ich interessiere mich viel mehr für übergreifende Themen, die sich durch ganze Texte ziehen, dafür, wie die Motivationen der Charaktere ihre Entscheidungen beeinflussen, und dafür, wie Texte im größeren Kontext des Zeitpunkts und Ortes, an dem der Autor sie geschrieben hat, zu verorten sind.
Ich arbeite hauptsächlich daran als Bewertungsproblem – um zu sehen, ob Sprachmodelle in der Lage sind, diese übergeordneten Ideen aus literarischen Texten zu extrahieren.
Wie war es, während Ihrer Promotion Literaturwissenschaft mit KI zu studieren, als ChatGPT aufkam?
Ich habe eine verrückte Geschichte dazu. In meiner ersten Doktorarbeit schlug ich eine Aufgabe namens „literarische Beweisführung“ vor. Wissenschaftler zitieren in ihren Analysen immer aus Primärtexten, also nahmen wir Absätze, in denen Geisteswissenschaftler „Der große Gatsby“ analysierten, versteckten die Zitate aus dem Roman und baten Sprachmodelle, diese Zitate wiederzufinden.
In meiner ersten Arbeit habe ich einen kleinen, dichten Retriever auf RoBERTa-Basis verwendet, da wir nicht ganze Romane in Sprachmodelle einfügen konnten. Ich habe in der Abschnitt „Motivation” wörtlich geschrieben, dass wir diesen Ansatz benötigten, da wir keine vollständigen Romane in den Kontext einfügen konnten.
Fünf Jahre später habe ich mich in meiner jüngsten Arbeit erneut mit dieser Aufgabe befasst, diesmal mit großen Sprachmodellen, die ganze Romane verarbeiten können. Im Februar habe ich diese Aufgabe zum ersten Mal selbst ausprobiert – ich habe acht Stunden gebraucht, um die gedruckten Bücher zu bearbeiten. Keines der Modelle schnitt bei den 40 Beispielen so gut ab wie ich. Aber als die Arbeit drei Monate später angenommen wurde, war Gemini Pro 2.5 bereits auf dem Markt und übertraf meine Leistung. Es war zwar nur eine kleine Stichprobe, aber es war verrückt zu sehen, wie schnell sich die Dinge entwickelten.
Zu Beginn meiner Promotion habe ich keine Prompts geschrieben. Das war unerhört. Jetzt nutzt meine Mutter LLMs in ihrem Job – früher wusste sie nie, woran ich arbeite, und jetzt hat sie Zugriff auf Enterprise-LLMs.
Katherine verteidigt ihre Doktorarbeit
Wie unterscheiden sich Ihrer Meinung nach LLMs beim Lesen von Menschen?
Der offensichtlichste Unterschied ist die Geschwindigkeit – Gemini antwortet innerhalb von 30 Sekunden, während ich durchschnittlich 12 Minuten pro Beispiel benötigte. Als ich meine Fehler überprüfte, fiel mir oft auf, dass ich mich einfach nicht an bestimmte Sätze aus 200 bis 400 Seiten langen Romanen erinnern konnte, während das Modell eine perfekte Erinnerung hatte.
Ich denke, dass LLMs Text Token für Token auf eine Weise verarbeiten, die dem genauen Lesen in der Literaturanalyse ähnelt, bei dem man den Text auf Wortebene auseinander nimmt. Aber wenn Menschen 400 Seiten lesen, wird nicht jedes Wort in unserem Gehirn als eigenständige Einheit registriert, wie es bei Modellen der Fall sein könnte.
Warum ist es so schwierig, gute Bewertungen zu entwickeln, und warum besteht eine solche Diskrepanz zwischen den aktuellen Bewertungen und den tatsächlichen Erfahrungen der Menschen mit diesen Modellen?
Es ist das Spannungsfeld zwischen dem Wunsch, Bewertungen schnell mit automatischer Auswertung zu skalieren, und der Notwendigkeit einer detaillierten Bewertung durch menschliche Experten. Ein Großteil meiner Arbeit konzentrierte sich darauf, in die Einstellung echter Experten zu investieren. Für die maschinelle Übersetzung von Literatur haben wir Literaturübersetzer mit einem Doktortitel in Vergleichender Literaturwissenschaft eingestellt. Ihre Erkenntnisse unterschieden sich deutlich von denen, die man von Mechanical Turkern erhalten würde, selbst bei einfachen A/B-Tests.
Die andere Seite sind die Kosten für die Erstellung von Bewertungen. Ich habe im vergangenen Jahr an einem Benchmark für Agenten mitgearbeitet, bei dem wir manuell Fragen erstellt und alle Agenten von Hand bewertet haben. Ich habe wahrscheinlich den gesamten März damit verbracht, dem Operator von OpenAI dabei zuzusehen, wie er herumgeklickt und nach Dingen gesucht hat. Es hat sehr lange gedauert, selbst 100 bis 150 Beispiele durchzugehen, aber wir haben so viel gelernt, indem wir mit menschlichen Augen beobachtet haben, was die Agenten taten.
Es besteht ein ständiger Konflikt zwischen dem Wunsch nach einer Ausweitung der Bewertungen und der Notwendigkeit einer langsameren, detaillierteren Bewertung durch Menschen.
Woran arbeiten Sie bei Pangram?
Ich arbeite an einem Modell, das erkennen kann, wie stark KI in einem Text verbreitet ist. Wir wissen, dass Menschen nicht nur Texte mit KI generieren – oft bringen sie Texte mit, die sie selbst geschrieben haben, und bitten die KI, diese zu bearbeiten. Diese Bearbeitungen reichen von kleinen grammatikalischen Korrekturen bis hin zu größeren Umstrukturierungen oder vollständigen Umformulierungen.
Wir möchten diesen Effekt messen, da wir die Skala von menschlich verfassten bis vollständig KI-generierten Texten als Spektrum betrachten können, wobei KI-bearbeitete Texte irgendwo dazwischen liegen. Wir trainieren ein Modell, um zu identifizieren, wo auf diesem Spektrum ein Text liegen könnte.
Dies ist für unsere Kunden aus dem Bildungsbereich besonders wichtig, aber da LLMs mittlerweile in Textverarbeitungsprogramme wie Google Docs integriert sind, haben auch viele andere Interesse daran gezeigt. Die Menschen möchten wissen, wie stark KI in einen Text eingegriffen hat – welche Änderungen „verzeihlich” sind und welche den Nutzer kognitiv erheblich belasten.
Katherine und das Team arbeiten bis spät in die Nacht an einer Forschungsarbeit.
Warum haben Sie sich entschieden, als Gründungsforscher bei Pangram mitzuarbeiten?
Ich liebe das Team hier. Bradley und Max haben mit dem Gründungsteam wirklich ganze Arbeit geleistet. Ich verbringe 90 % meiner Zeit mit den Leuten von Pangram, aber ehrlich gesagt würde ich es nicht anders haben wollen – das beweist auch, dass ich in den letzten 10 Tagen mit allen trainiert habe!
Es ist wirklich schön, einen Büroraum zu haben, in den man gehen kann. Ich war eine Zeit lang Doktorand im Fernstudium, und es macht Spaß, einen Raum zu haben, in dem alle auf ein ähnliches Ziel hinarbeiten. Ich habe mein Doktorat direkt nach meinem Bachelor-Abschluss im ersten Jahr der COVID-Pandemie begonnen, sodass es komplett im Fernstudium stattfand und ich nirgendwo hingehen konnte. Ich habe noch nie in einem Büro gearbeitet oder einen „normalen Job” gehabt.
Bradley ist einer der klügsten Menschen, unter denen ich je gearbeitet habe – das ist keine Übertreibung. Ich habe das Gefühl, dass ich so viel gelernt habe und praktische Erfahrungen mit Dingen sammle, die ich während meiner Promotion nicht machen konnte. Als LLMs auf den Markt kamen, wollten alle daran forschen und wir haben das Modellieren vergessen. Es hatte keinen Sinn, ein eigenes Modell zu trainieren, um mit den großen Labors mithalten zu können, daher habe ich außer Feinabstimmungen nicht viel am Modellieren gearbeitet.
Es war wirklich cool, praktische Fähigkeiten zu erwerben. Ich bin kein guter Softwareentwickler, weil ich Forscher bin, aber das hat Spaß gemacht. Elyas hat mir heute eine halbe Stunde lang dabei geholfen, Probleme mit GitHub zu beheben! Und die Möglichkeit, mit klugen Leuten zusammenzuarbeiten, zu forschen und in Brooklyn zu sein – es ist ein großartiger Ort und ich liebe die Ostküste.
Sie sind eher ein Skeptiker als ein Optimist in Bezug auf KI und integrieren KI kaum in Ihr tägliches Leben. Was begründet diese Skepsis?
Zwei Dinge. Im Kleinen bin ich der einzige meiner engen College-Freunde, der in die Informatikforschung gegangen ist. Die anderen sind Versicherungsmathematiker und wussten nichts von Sprachmodellen, als diese aufkamen. Sie hörten zum ersten Mal von ChatGPT, als Instagram KI in Suchleisten und Chat-Funktionen integrierte. Lange Zeit war ich der Einzige, der diese Technologien kannte, aber meine Freunde schienen ohne sie gut leben zu können. Mir wurde klar, wie viel KI-Wissen in meinem Kopf herumschwirrte, während sie in seliger Unwissenheit lebten und damit gut zurechtkamen.
Ich befand mich in dieser Echokammer von Menschen, die entweder KI-Pessimisten waren oder LLM wirklich hochjubelten, aber das ist nicht das, worüber 95 % der Menschen sprechen.
Auf einer philosophischen Ebene habe ich durch meine schriftstellerische Laufbahn – in der ich gelernt habe, dass ich nicht schreiben möchte, sondern lieber analysiere – erkannt, dass ich nur Texte schätze, die von Menschen stammen. Es ist mir egal, was LLMs schreiben oder ob sie literarische Analysen durchführen können, denn ich denke, dass diese Fähigkeiten für Menschen wertvoll sind. Es handelt sich um Fähigkeiten, die Menschen haben können, aber ich glaube nicht, dass es etwas bedeutet, wenn ein LLM diese Fähigkeiten besitzt.
Schreiben ist eine sehr menschliche Aufgabe, und ich schätze es sehr, dass ein Mensch dahintersteckt. Das hat mich zu einem schlechten KI-Textdetektor gemacht, weil ich einfach keine KI-Texte lese!
Was machst du gerne in deiner Freizeit?
Ich liebe es, mit meinen Hunden in Brooklyn spazieren zu gehen – ich habe zwei Hunde, und einer davon liebt lange Spaziergänge. Ich trainiere gerne, lese gerne Belletristik und interessiere mich sehr für Stricken und Häkeln.
Du hast dir zum Ziel gesetzt, diesen Sommer mit allen Mitgliedern des Pangram-Teams zu trainieren. Was war bisher dein Lieblingsworkout?
Ich denke, Klettern mit Lu, was gut ist, weil wir es in 45 Minuten wieder tun werden! Klettern ist sehr gesellig, weil man zwischen den Versuchen Pausen macht, sodass man sich unterhält und zusammen abhängt.
Ich habe Kickboxen gemacht, was die ganze Zeit über sehr intensiv war, mit einzelnen Boxsäcken, also nicht so sehr teamorientiert. Und ich habe ein weiteres Training mit unseren Gründern gemacht, das die ganze Stunde über chaotisch war – keine Gelegenheit zum Reden, wir haben nur versucht, zu überleben! Die Stimmung war zeitweise sehr gut, auch wenn sie für Max vielleicht manchmal etwas gedrückt war. Es war eine großartige Erfahrung für den Teamzusammenhalt, aber Klettern gewinnt, weil es am geselligsten ist.
Welchen Rat würden Sie jemandem geben, der in die ML-Forschung einsteigen möchte?
Zwei wichtige Dinge: Versuchen Sie nicht, Projekte alleine zu bewältigen. Einige Doktoranden geraten zu Beginn ihrer Karriere in diese Falle, aber Sie müssen mit Menschen zusammenarbeiten, die mehr Erfahrung haben als Sie. Wenn es Ihr erstes Projekt ist, ist es völlig in Ordnung, wenn sie Dinge tun, die Sie schockieren und beeindrucken – Sie werden durch die Zusammenarbeit mit sehr klugen Menschen viel lernen.
Zweitens müssen Sie diese Dinge selbst ausprobieren und Ihre Komfortzone verlassen. Ich habe Python nur gelernt, indem ich mich entschlossen habe, es einen Sommer lang als einzige Sprache für ein Forschungsprojekt zu verwenden. Seien Sie bei allem sehr praxisorientiert, auch bei der Mathematik – schreiben Sie Ableitungen mit der Hand auf!
Vor sechs Monaten habe ich mich tatsächlich für Math Academy begeistert, was verrückt war, aber toll, um wieder in die mathematischen Grundlagen einzusteigen.
Katherine bei Pangram
Katherine hat kürzlich ihren Doktortitel in Informatik an der UMass Amherst erworben und wird als unsere erste wissenschaftliche Mitarbeiterin in Vollzeit bei Pangram Labs einsteigen. Wenn sie nicht gerade KI-Erkennungsmodelle trainiert oder Literatur mit Sprachmodellen analysiert, geht sie mit ihren Hunden in Brooklyn spazieren oder plant das nächste Team-Training.
