Annonce d'un nouveau partenariat avec Proofig ! En savoir plus
Bienvenue dans notre deuxième volet consacré à nos employés ! Nous avons rencontré Katherine Thai, notre chercheuse fondatrice en intelligence artificielle, pour discuter de son parcours unique dans le domaine du traitement du langage naturel, de ses recherches en analyse littéraire et de ce qu'elle développe chez Pangram Labs. (Remarque : cette interview a été transcrite et légèrement modifiée par l'IA pour en faciliter la lecture.)
Comment vous êtes-vous intéressé à la PNL et avez-vous décidé de faire un doctorat ?
Au départ, je ne me suis jamais intéressé directement à la PNL. J'ai étudié les mathématiques, l'informatique et l'anglais à l'université et j'ai participé à de nombreux programmes de recherche de premier cycle, car j'aimais l'idée de la recherche et de l'expérimentation, mais je ne savais pas exactement ce que je voulais étudier.
À l'approche de ma dernière année, un camarade de classe m'a suggéré que mon diplôme d'anglais me permettrait d'étudier le TALN, puisqu'il s'agit de l'application de l'informatique au traitement du texte. Je n'en avais jamais beaucoup entendu parler, car mon établissement d'enseignement supérieur ne comptait ni chercheurs ni cours consacrés au TALN.
J'ai finalement trouvé mon conseiller actuel, Mohit Iyyer, qui travaillait sur la compréhension narrative des longs récits et des livres. Cela m'a vraiment intrigué, car j'adore les livres et j'avais rédigé un mémoire de licence intitulé « Mécanismes narratifs de la frustration ». Lorsque j'ai postulé, mon directeur de thèse pensait qu'il s'agissait de mécanismes techniques liés à l'informatique, mais ce n'était pas le cas : c'était simplement ma façon de décrire ce qui se passait dans la littérature ! Il a trouvé mon parcours convaincant et a pensé que mes connaissances en mathématiques m'aideraient à acquérir les bases. J'ai littéralement suivi mon premier cours de TALN pendant mon premier semestre de doctorat.
Parlez-nous de vos recherches doctorales.
Ma thèse s'intitule « Modes de collaboration entre l'humain et l'IA dans le texte : repères, mesures et tâches d'interprétation ». Je m'intéresse à la manière dont les modèles linguistiques peuvent interpréter un texte et en tirer des conclusions plus approfondies que celles d'un chercheur en sciences humaines, plutôt que de se limiter à des attributs superficiels.
Les premiers travaux en PNL sur la littérature se concentraient sur l'extraction d'entités nommées à partir de livres, la cartographie des interactions entre les personnages et la création de chronologies approximatives. Je m'intéresse beaucoup plus aux thèmes généraux qui traversent l'ensemble des textes, à la manière dont les motivations des personnages influencent leurs décisions et à la manière dont les textes s'inscrivent dans le contexte plus large de l'époque et du lieu où l'auteur les a écrits.
Je travaille principalement sur ce sujet en tant que problème d'évaluation, c'est-à-dire en cherchant à déterminer si les modèles linguistiques sont capables d'extraire ces idées de haut niveau à partir de textes littéraires.
Comment s'est passée votre expérience d'étude de l'analyse littéraire avec l'IA, alors que ChatGPT faisait son apparition pendant votre doctorat ?
J'ai une anecdote incroyable à ce sujet. Mon premier travail de doctorat proposait une tâche appelée « recherche de preuves littéraires ». Les chercheurs citent toujours des extraits de textes primaires dans leurs analyses. Nous avons donc pris des paragraphes dans lesquels des chercheurs en sciences humaines analysaient Gatsby le Magnifique, caché les citations tirées du roman, puis demandé à des modèles linguistiques de retrouver ces citations.
Mon premier travail utilisait un petit retriever dense basé sur RoBERTa, car nous ne pouvions pas intégrer des romans entiers dans les modèles linguistiques. J'ai littéralement écrit dans la section « motivation » que nous avions besoin de cette approche, car nous ne pouvions pas intégrer des romans entiers dans le contexte.
Cinq ans plus tard, mes travaux les plus récents ont revisité cette tâche à l'aide de grands modèles linguistiques capables de traiter des romans entiers. En février, j'ai essayé cette tâche moi-même pour la première fois : cela m'a pris huit heures avec des exemplaires physiques des livres. Aucun des modèles n'a obtenu d'aussi bons résultats que moi sur 40 exemples. Mais lorsque l'article a été accepté trois mois plus tard, Gemini Pro 2.5 était sorti et m'avait surpassé. L'échantillon était certes très petit, mais il était fou de voir à quelle vitesse les choses évoluaient.
Au début de mon doctorat, je n'écrivais aucune note. C'était du jamais vu. Aujourd'hui, ma mère utilise les LLM dans son travail. Avant, elle ne savait jamais sur quoi je travaillais, mais maintenant, elle a accès à un LLM d'entreprise.
Katherine soutenant sa thèse de doctorat
Selon vous, en quoi la lecture des LLM diffère-t-elle de celle des humains ?
La différence la plus évidente est la vitesse : Gemini répond en 30 secondes, alors qu'il me fallait en moyenne 12 minutes par exemple. Lorsque j'ai revu mes erreurs, je me suis souvent rendu compte que je ne me souvenais tout simplement pas de certaines phrases spécifiques tirées de romans de 200 à 400 pages, alors que le modèle avait une mémoire parfaite.
Je pense que les LLM traitent le texte mot par mot, d'une manière similaire à la lecture attentive utilisée en analyse littéraire, où l'on dissèque le texte au niveau des mots. Mais lorsque les humains lisent 400 pages, tous les mots ne sont pas enregistrés dans notre cerveau comme des unités distinctes, contrairement à ce qui se passe pour les modèles.
Pourquoi est-il si difficile de concevoir de bonnes évaluations, et pourquoi existe-t-il un tel écart entre les évaluations actuelles et ce que les gens vivent réellement avec ces modèles ?
Il s'agit du dilemme entre vouloir évaluer rapidement à l'aide d'une évaluation automatique et avoir besoin d'une évaluation humaine approfondie par des experts. Une grande partie de mon travail a consisté à investir dans le recrutement d'experts réels. Pour la traduction automatique de littérature, nous avons recruté des traducteurs littéraires titulaires d'un doctorat en littérature comparée. Leurs connaissances étaient très différentes de celles que l'on peut obtenir auprès de traducteurs mécaniques, même pour de simples tests A/B.
L'autre aspect est le coût de la création des évaluations. J'ai participé à l'élaboration d'un benchmark pour les agents cette année, dans le cadre duquel nous avons créé manuellement des questions et évalué tous les agents à la main. J'ai probablement passé tout le mois de mars à regarder l'opérateur d'OpenAI cliquer ici et là et rechercher des éléments. Il a fallu beaucoup de temps pour traiter ne serait-ce que 100 à 150 exemples, mais nous avons beaucoup appris en observant ce que faisaient les agents.
Il existe une tension constante entre le désir d'intensifier les évaluations et la nécessité d'une évaluation humaine plus lente et plus fine.
Sur quoi travaillez-vous chez Pangram ?
Je travaille sur un modèle capable de détecter le degré d'omniprésence de l'IA dans un texte. Nous savons que les gens ne se contentent pas de générer du texte à l'aide de l'IA : ils apportent souvent des textes qu'ils ont rédigés eux-mêmes et demandent à l'IA de les modifier. Ces modifications vont de corrections grammaticales mineures à des restructurations majeures ou à des paraphrases complètes.
Nous voulons mesurer cet effet, car nous pouvons considérer l'échelle allant du texte rédigé par un humain au texte entièrement rédigé par l'IA comme un spectre, le texte édité par l'IA se situant quelque part entre les deux. Nous entraînons un modèle afin d'identifier où un texte pourrait se situer sur ce spectre.
C'est très important pour nos clients du secteur de l'éducation, mais beaucoup d'autres personnes ont également manifesté leur intérêt, car les modèles LLM sont désormais intégrés à des éditeurs de texte tels que Google Docs. Les gens veulent savoir dans quelle mesure l'IA a influencé un texte, quelles modifications peuvent être « acceptables » et lesquelles allègent considérablement la charge cognitive de l'utilisateur.
Katherine et l'équipe travaillent tard sur un article de recherche.
Pourquoi avez-vous décidé de rejoindre Pangram en tant que chercheur fondateur ?
J'adore l'équipe ici. Bradley et Max ont vraiment fait un travail formidable avec l'équipe fondatrice. Je passe 90 % de mon temps avec les gens de Pangram, mais honnêtement, je ne voudrais pas qu'il en soit autrement, comme en témoigne le fait que j'ai travaillé avec tout le monde au cours des dix derniers jours !
C'est vraiment agréable d'avoir un espace de travail où se rendre. J'ai été doctorante à distance pendant un certain temps, et c'est sympa d'avoir un espace où tout le monde travaille vers un objectif similaire. J'ai commencé mon doctorat directement après ma licence, pendant la première année de la pandémie, donc tout se faisait à distance et je n'avais nulle part où aller. Je n'ai jamais travaillé dans un bureau ni eu de « travail normal ».
Bradley est l'une des personnes les plus intelligentes avec lesquelles j'ai jamais travaillé, sans exagération. J'ai l'impression d'avoir beaucoup appris et d'acquérir une expérience pratique dans des domaines que je n'ai pas pu aborder pendant mon doctorat. Lorsque les LLM sont apparus, tout le monde voulait faire des recherches à leur sujet et nous avons oublié la modélisation. Il était inutile d'essayer de former son propre modèle pour rivaliser avec les grands laboratoires, je n'ai donc pas fait beaucoup de modélisation, à part quelques ajustements.
C'était vraiment génial d'acquérir des compétences pratiques. Je ne suis pas un bon ingénieur logiciel, car je suis chercheur, donc ça m'a beaucoup plu. Elyas m'a aidé à résoudre des problèmes GitHub pendant une demi-heure aujourd'hui ! Et pouvoir travailler avec des gens intelligents, faire de la recherche et être à Brooklyn... C'est un endroit génial et j'adore la côte Est.
Vous êtes plus sceptique qu'optimiste vis-à-vis de l'IA et vous ne l'intégrez pas beaucoup dans votre vie quotidienne. Qu'est-ce qui sous-tend ce scepticisme ?
Deux choses. À petite échelle, je suis le seul parmi mes amis proches de l'université à m'être lancé dans la recherche en informatique. Les autres sont actuaires et ne connaissaient pas le modélisation linguistique quand elle est apparue. Ils ont commencé à entendre parler de ChatGPT quand Instagram a ajouté l'IA aux barres de recherche et aux fonctionnalités de chat. Pendant longtemps, j'étais le seul à connaître ces technologies, mais mes amis semblaient très bien vivre sans elles. J'ai réalisé à quel point l'IA occupait mon esprit alors qu'eux, dans leur ignorance béate, se portaient très bien.
Je me trouvais dans cette chambre d'écho où les gens étaient soit des détracteurs de l'IA, soit des fervents défenseurs des LLM, mais ce n'est pas ce dont parlent 95 % des gens.
D'un point de vue philosophique, au cours de mon parcours d'écriture (j'ai appris que je n'aimais pas écrire, mais que j'adorais analyser), j'ai réalisé que je n'accordais de valeur qu'aux textes rédigés par des êtres humains. Je me moque de ce que les LLM écrivent ou de leur capacité à effectuer des analyses littéraires, car je pense que cette capacité est précieuse pour les êtres humains. C'est une compétence que les êtres humains peuvent acquérir, mais je ne pense pas qu'elle ait la moindre valeur si elle est détenue par un LLM.
L'écriture est une tâche très humaine, et j'apprécie vraiment qu'un être humain en soit l'auteur. Cela fait de moi un mauvais détecteur de textes générés par l'IA, car je ne lis tout simplement pas ce type de textes !
Qu'aimez-vous faire pour vous divertir en dehors du travail ?
J'adore promener mes chiens dans Brooklyn. J'ai deux chiens, dont l'un adore les longues balades. J'aime faire du sport, lire des romans et je suis assez fan de tricot et de crochet.
Tu t'es fixé comme objectif cet été de t'entraîner avec tous les membres de l'équipe Pangram. Quel a été ton entraînement préféré jusqu'à présent ?
Je pense que c'est grimper avec Lu, ce qui est bien parce que nous sommes sur le point de recommencer dans 45 minutes ! L'escalade est très conviviale, car on fait des pauses entre chaque tentative, ce qui permet de discuter et de passer du temps ensemble.
J'ai pratiqué le kickboxing, qui est un sport très intense, avec des sacs individuels, donc pas vraiment axé sur le travail d'équipe. J'ai également participé à une autre séance d'entraînement avec nos fondateurs, qui a été chaotique pendant toute l'heure : impossible de discuter, nous essayions simplement de survivre ! Le moral était parfois au beau fixe, même si Max semblait parfois un peu découragé. Ce fut une excellente expérience pour renforcer la cohésion de l'équipe, mais l'escalade l'emporte car c'est l'activité la plus sociale.
Quel conseil donneriez-vous à quelqu'un qui souhaite se lancer dans la recherche en apprentissage automatique ?
Deux choses principales : n'essayez pas de mener à bien des projets tout seul. Certains doctorants débutants tombent dans ce piège, mais vous devez collaborer avec des personnes plus expérimentées que vous. S'il s'agit de votre premier projet, ce n'est vraiment pas grave si leurs méthodes vous surprennent et vous impressionnent : vous apprendrez énormément en travaillant avec des personnes très intelligentes.
Deuxièmement, vous devez essayer ces choses par vous-même et sortir de votre zone de confort. J'ai appris Python uniquement en décidant de l'utiliser comme seul langage pendant un été pour un projet de recherche. Soyez très pratique dans tout ce que vous faites, y compris les mathématiques : écrivez les dérivées à la main !
En fait, je suis devenu accro à Math Academy il y a six mois, ce qui était fou, mais génial pour me remettre à niveau en mathématiques.
Katherine à Pangram
Katherine a récemment obtenu son doctorat en informatique à l'université du Massachusetts à Amherst et rejoindra Pangram Labs à temps plein en tant que première chercheuse scientifique fondatrice. Lorsqu'elle ne s'occupe pas de former des modèles de détection par IA ou d'analyser la littérature à l'aide de modèles linguistiques, vous pouvez la trouver en train de promener ses chiens dans Brooklyn ou de planifier la prochaine séance d'entraînement de l'équipe.
