宣布与Proofig建立全新合作伙伴关系!了解更多

员工聚焦:认识凯瑟琳,人工智能研究科学家

布拉德利·艾米
2025年12月8日

员工聚焦:凯瑟琳·泰

欢迎来到我们的第二期员工聚焦!我们与创始人工智能研究科学家凯瑟琳·泰(Katherine Thai)进行了深入对话,探讨她投身自然语言处理领域的独特历程、她在文学分析领域的研究成果,以及她在Pangram实验室正在构建的项目。(注:本次访谈由人工智能转录并经轻微编辑以提升可读性。)


从数学和英语到自然语言处理研究

您是如何对自然语言处理产生兴趣并决定攻读博士学位的?

最初我对自然语言处理(NLP)并不直接感兴趣。本科期间我主修数学、计算机科学和英语,并参与了许多本科生研究项目——因为我热爱研究和实验的理念,但当时还不清楚自己究竟想研究什么。

临近大四那年,有位同学建议我用英语专业背景攻读自然语言处理(NLP),毕竟这是计算机技术在文本领域的应用。此前我对此知之甚少——本科院校既没有NLP研究者,也没有相关课程。

最终我找到了现在的导师莫希特·伊耶尔,他当时正在研究长篇故事和书籍的叙事理解。这让我非常着迷,因为我热爱书籍,本科毕业论文就写过一篇《挫败感的叙事机制》。 申请时,导师误以为这些是计算机科学的技术机制,实则不然——那只是我对文学现象的描述方式!他认为我的学术背景极具吸引力,并相信我的数学基础能帮助我掌握核心原理。事实上,我的第一门自然语言处理课程是在博士第一学期才修读的。

用人工智能研读文学

请谈谈你的博士研究。

我的论文题为《文本中人机协作模式:基准、度量与解释性任务》。我致力于探究语言模型如何解读文本并得出比人文学者更深入的结论,而非仅停留在表面特征层面。

早期自然语言处理在文学领域的应用主要集中于从书籍中提取命名实体、绘制人物互动关系图谱以及构建粗略的情节时间线。而我更关注的是贯穿整部作品的宏大主题、人物动机如何影响其决策,以及文本如何植根于作者创作时空背景的更广阔语境之中。

我主要将此作为一个评估问题来研究——即观察语言模型是否能够从文学文本中提取这些更高层次的理念。

在攻读博士学位期间,恰逢ChatGPT问世,与人工智能共同研习文学分析是怎样的体验?

关于这事我有个疯狂的故事。我的博士课题最初设计了一个名为"文学证据检索"的任务。学者们在分析中总会引用原始文本的段落,于是我们选取人文学者解读《了不起的盖茨比》的段落,隐藏其中的小说引文,然后让语言模型去检索这些引文。

我的第一项研究采用了一个基于RoBERTa的小型密集检索器,因为我们无法将整部小说塞进语言模型中。我在研究动机部分明确写道:我们需要这种方法,正是因为无法将完整小说纳入上下文范围。

五年后,我最近的研究重新审视了这项任务,使用能够容纳整部小说的大型语言模型。 今年二月,我首次亲自尝试这项任务——耗费八小时翻阅实体书籍。在40个样本中,所有模型表现均逊于我。但三个月后论文获录时,Gemini Pro 2.5已问世并超越了我。样本虽小,却令人惊叹技术进步之迅猛。

读博初期,我从不写提示词。这简直闻所未闻。如今我母亲的工作中也用上了大型语言模型——以前她完全不了解我的研究内容,现在却获得了企业级大型语言模型的访问权限。

凯瑟琳正在进行博士论文答辩

你认为大型语言模型与人类的阅读方式有何不同?

最明显的差异在于速度——Gemini仅需30秒即可完成响应,而我平均处理每个示例耗时12分钟。复盘错误时,我常常发现自己根本记不住200-400页小说中的具体句子,而模型却能完美复现。

我认为大型语言模型(LLMs)处理文本的方式类似于文学分析中的细读法,即逐词拆解文本。但当人类阅读400页内容时,并非每个词都会像模型那样在我们大脑中形成独立单元。

评估的挑战

为什么设计出优质的评估体系如此困难?为什么当前评估结果与人们实际使用这些模型时的体验存在如此大的差距?

这是一种矛盾:一方面希望通过自动评估快速扩展评估规模,另一方面又需要精细的人工专家评估。我的工作重点之一就是投资于聘请真正的专家。在文学作品的机器翻译领域,我们聘请了拥有比较文学博士学位的文学翻译家。他们的见解与机械土耳其人提供的结果截然不同,即便是简单的A/B测试也是如此。

另一方面是创建评估的成本。去年我参与开发了一个代理基准测试,我们手动设计问题并逐个评估所有代理。整个三月我几乎都在观察OpenAI操作员的点击轨迹和搜索行为。即使处理100-150个示例也耗费了极长时间,但通过人工观察代理行为,我们获得了极其宝贵的经验。

在渴望扩大评估规模与需要更慢、更精细的人工评估之间,始终存在着一种张力。

在Pangram构建AI检测系统

你在Pangram负责什么项目?

我正在开发一个模型,用于检测文本中人工智能的渗透程度。我们知道人们不仅用人工智能生成文本——他们常常带着自己撰写的文本,请求人工智能进行编辑。这些编辑内容涵盖从细微的语法修正到重大结构调整,甚至完全的改写。

我们希望衡量这种效果,因为我们可以将文本从人类撰写到完全由人工智能生成的过程视为一个连续体,而人工智能编辑的文本则位于其间某个位置。我们正在训练一个模型,以识别文本在该连续体上的具体位置。

这对我们的教育客户至关重要,但随着大型语言模型现已集成到Google文档等文本编辑器中,我们也收到了许多其他领域的关注。人们希望了解人工智能对文本的干预程度——哪些编辑属于"可接受"范围,而哪些则会大幅减轻用户的认知负担。

凯瑟琳和团队加班撰写研究论文

你为何决定加入Pangram担任创始研究员?

我真心喜欢这里的团队。布拉德利和马克斯在创始团队的组建上可谓大获成功。虽然我90%的时间都和Pangram的同事共事,但说实话我乐在其中——这点从我过去十天和大家一起健身就能看出来!

能有办公室可去真是太好了。我之前当过一段时间远程博士生,现在能有个大家朝着共同目标努力的空间,感觉很棒。我本科毕业后直接攻读博士,恰逢疫情第一年,当时完全是远程工作,根本无处可去。我从未体验过在办公室工作或拥有"正常工作"的感觉。

布拉德利是我共事过最聪明的人之一——这绝非夸大其词。 我感觉自己学到了很多东西,并且获得了在博士期间未能接触到的实践经验。当大型语言模型问世时,大家都想研究它们,却忽略了建模工作。试图训练自己的模型来追赶大型实验室毫无意义,因此除了微调之外,我几乎没做过多少建模工作。

学习实用技能真是太棒了。我不是个好软件工程师,因为我本职是研究员,所以这段经历特别有趣。今天埃利亚斯还花半小时帮我修复GitHub问题呢!能和聪明人共事、做研究,又身处布鲁克林——这里地理位置绝佳,我超爱东海岸。

人工智能研究中的AI怀疑论者

你对人工智能持怀疑态度多于乐观态度,且很少将人工智能融入日常生活。这种怀疑态度的根源是什么?

两件事。从微观层面看,我大学亲密的朋友中只有我投身计算机科学研究。其他人都成了精算师,语言模型问世时他们对此一无所知。直到Instagram在搜索栏和聊天功能中加入AI,他们才开始听说ChatGPT。很长一段时间里,只有我了解这些技术,但朋友们似乎过得挺好。 我突然意识到,当他们浑然不觉却依然过得很好时,我的脑海里早已免费租住着大量人工智能知识。

我身处这样一个回音室,人们要么是人工智能末日论者,要么极力吹捧大型语言模型,但这并非95%人群的讨论焦点。

从哲学层面而言,在写作历程中——我逐渐意识到自己并非热衷写作,而是痴迷于分析——我领悟到唯有人类创作的文字才值得珍视。我对大型语言模型写出的内容毫无兴趣,也不在乎它们能否完成文学分析任务,因为我认为这些能力对人类才具有价值。这是人类可以掌握的技能,但若大型语言模型具备此能力,我认为毫无意义。

写作是极具人性化的任务,而我格外珍视背后有人类创作的事实。这让我成了糟糕的人工智能文本识别者——因为我根本不读AI生成的内容!

工作之外的生活

工作之余,你喜欢做什么来娱乐自己?

我喜欢带着我的狗在布鲁克林散步——我有两只狗,其中一只特别喜欢长途散步。我喜欢锻炼身体,阅读小说,还相当热衷于编织和钩针。

你把和Pangram团队的每个人一起锻炼设为今夏目标。到目前为止,你最喜欢的锻炼方式是什么?

我觉得和卢一起攀岩很棒,因为我们45分钟后又要去攀岩了!攀岩是项社交活动,因为每次尝试之间会有休息时间,所以大家可以聊天闲逛。

我练过跆拳道,全程都是高强度单打沙袋训练,不太注重团队协作。后来和创始人一起参加的另一项训练简直是整整一小时的混乱——根本没机会说话,大家都在拼命坚持!虽然士气有时很高涨,但马克斯可能偶尔会消沉。这确实是绝佳的团队凝聚力体验,不过攀岩才是最能促进社交的活动。

致有志于科研的新人的建议

对于想进入机器学习研究领域的人,你会给出什么建议?

主要有两点:不要试图独自完成项目。有些刚入门的博士生会陷入这个误区,但你需要与资历更深的人合作。若是你的首个项目,即使对方做的事让你震惊又佩服——这完全没问题,与聪明人共事能让你获益匪浅。

其次,你需要亲自尝试这些事物,走出舒适区。我之所以学会Python,仅仅是因为某个夏天决定将其作为唯一语言完成一个研究项目。对所有内容都要亲力亲为,包括数学——请亲手写出导数公式!

其实我六个月前就迷上了数学学院,虽然疯狂但确实很棒,让我重新掌握了数学基础。

凯瑟琳在庞格拉姆


凯瑟琳最近在马萨诸塞大学阿默斯特分校完成了计算机科学博士学位,即将全职加入Pangram实验室,成为我们首位创始研究科学家。当她不在训练AI检测模型或用语言模型分析文献时,你总能看到她在布鲁克林遛狗,或是策划团队的下一次健身训练。

订阅我们的电子报
我们每月分享人工智能检测研究的最新进展。
订阅
以获取我们的最新动态
随时掌握我们的最新资讯与优惠活动。
© 2025 Pangram。保留所有权利。