Anunciamos uma nova parceria com a Proofig! Saiba mais

Por que a perplexidade e a explosividade falham em detectar a IA

Bradley Emi
4 de março de 2025

Quando você pesquisa online como funcionam os detetores de IA, normalmente encontra muitas fontes que citam os termos «perplexidade» e «burstiness». O que significam esses termos e por que eles acabam não funcionando para detectar conteúdo gerado por IA? Hoje, quero explicar o que são perplexidade e burstiness e por que eles não são adequados para detectar textos gerados por IA. Também vamos entender por que eles não funcionam, por que os detectores baseados em perplexidade e burstiness citam erroneamente a Declaração da Independência como gerada por IA e por que esses detectores também são tendenciosos contra falantes não nativos de inglês. Vamos lá!

O que são perplexidade e explosão?

Começaremos com uma definição imprecisa e não técnica de perplexidade, apenas para ter uma noção geral do que é a perplexidade e como ela funciona. Para obter mais informações sobre a perplexidade, achei este artigo explicativo de dois minutos muito útil.

A perplexidade é o grau de inesperado ou surpreendente que cada palavra de um texto é, quando analisada da perspetiva de um determinado modelo linguístico ou LLM.

Por exemplo, aqui estão duas frases. Vamos focar na última palavra de cada frase, para fins de demonstração. No primeiro exemplo, a última palavra tem baixa perplexidade, enquanto no segundo exemplo, a última palavra tem alta perplexidade.

Baixa perplexidade:

Hoje, ao almoço, comi uma tigela de *sopa*.

Alta perplexidade:

Hoje, ao almoço, comi uma tigela de *aranhas*.

A razão pela qual a segunda frase é altamente desconcertante é porque muito raramente um modelo de linguagem veria exemplos de pessoas a comerem tigelas de aranhas no seu conjunto de dados de treino e, por isso, é muito surpreendente para o modelo de linguagem que a frase termine com «aranhas», em vez de algo como «sopa», «uma sanduíche» ou «uma salada».

Perplexidade vem da mesma raiz da palavra «perplexo», que significa «confuso» ou «perplexo». É útil pensar na perplexidade como a confusão do modelo de linguagem: quando ele vê algo que é desconhecido ou inesperado, em comparação com o que leu e assimilou no seu procedimento de treino, então podemos pensar no modelo de linguagem como ficando confuso ou perplexo com a conclusão.

Ok, ótimo, e quanto à explosividade? Explosividade é a mudança na perplexidade ao longo de um documento. Se algumas palavras e frases surpreendentes estiverem espalhadas por todo o documento, diríamos que ele tem alta explosividade.

Como funcionam os detetores baseados em perplexidade e explosividade?

Infelizmente, a maioria dos detetores comerciais (exceto o Pangram) não é transparente quanto à sua metodologia, mas, pelo que se entende das suas descrições, o texto humano é considerado mais complexo e com maior variabilidade do que o texto gerado por IA, e o texto gerado por IA tem menor probabilidade e menor variabilidade.

Podemos ver uma visualização disso abaixo! Eu baixei o modelo GPT-2 do Huggingface e calculei a perplexidade de todo o texto em dois documentos: um conjunto de avaliações de restaurantes feitas por humanos e um conjunto de avaliações geradas por IA. Em seguida, destaquei o texto de baixa perplexidade em azul e o texto de alta perplexidade em vermelho.

Visualização da perplexidade comparando texto gerado por IA e texto humano

Como pode ver, o texto gerado pela IA é totalmente azul escuro, sugerindo valores uniformes de baixa perplexidade. Já o texto gerado por humanos é principalmente azul, mas apresenta picos vermelhos. Isso é o que chamamos de alta explosividade.

É essa ideia que inspira os detetores de perplexidade e explosividade. Não só alguns dos primeiros detetores comerciais de IA se baseiam nessa ideia, como ela também inspirou algumas publicações académicas, tais como DetectGPT e Binoculars.

Para ser totalmente justo, esses detectores de perplexidade e explosividade funcionam algumas vezes! Só não acreditamos que eles possam funcionar de forma confiável em contextos de alto risco, onde imprecisões devem ser evitadas, como na sala de aula, onde uma detecção falsa positiva da IA pode potencialmente minar a confiança entre o professor e o aluno ou, pior ainda, criar provas imprecisas em um processo judicial.

Deficiência n.º 1: O texto no conjunto de treino é falsamente classificado como IA

Para aqueles que não estão familiarizados com a forma como os LLMs são criados, antes de os LLMs estarem disponíveis para serem implementados e utilizados como chatbots, eles devem primeiro passar por um procedimento chamado treinamento. Durante o treinamento, o modelo de linguagem analisa bilhões de textos e aprende os padrões linguísticos subjacentes do que é chamado de "conjunto de treinamento".

Os detalhes mecânicos precisos do procedimento de treino estão fora do âmbito desta publicação no blogue, mas o único detalhe crítico é que, no processo de otimização, o LLM é diretamente incentivado a minimizar a perplexidade nos documentos do seu conjunto de treino! Por outras palavras, o modelo aprende ao longo do tempo que os trechos de texto que vê repetidamente no seu procedimento de treino devem ter o mínimo de perplexidade possível.

Por que isso é um problema?

Como o modelo é solicitado a tornar os documentos do seu conjunto de treino com baixa perplexidade, os detetores de perplexidade e burstiness classificam documentos comuns do conjunto de treino como IA, mesmo quando os documentos do conjunto de treino são, na verdade, escritos por humanos!

É por isso que os detetores de IA baseados em perplexidade classificam a Declaração de Independência como gerada por IA: como a Declaração de Independência é um documento histórico famoso que foi reproduzido em inúmeros livros didáticos e artigos da Internet, ela aparece nos conjuntos de treino de IA... com muita frequência. E como o texto é exatamente o mesmo sempre que é visto durante o treinamento, o modelo pode memorizar o que é a Declaração da Independência quando a vê e, em seguida, atribuir automaticamente a todos os tokens uma perplexidade muito baixa, o que também torna a explosão realmente baixa.

Executei a mesma visualização acima na Declaração da Independência e vemos a mesma assinatura de IA: uma cor azul profunda e consistente em todo o texto, indicando que cada palavra tem baixa perplexidade. Do ponto de vista de um detetor baseado em perplexidade e explosividade, a Declaração da Independência é completamente indistinguível do conteúdo gerado por IA.

Curiosamente, notamos que a primeira frase da Declaração da Independência é ainda mais azul e tem menor perplexidade do que o resto. Isso acontece porque a primeira frase é, de longe, a parte mais reproduzida da passagem e aparece com mais frequência no conjunto de treino do GPT-2.

Visualização da perplexidade da Declaração da Independência

Da mesma forma, descobrimos que outras fontes comuns de dados de treino de LLM também apresentam taxas elevadas de falsos positivos com detetores de perplexidade e burstiness. A Wikipédia é um conjunto de dados de treino muito comum devido à sua alta qualidade e licença irrestrita: e, portanto, é extremamente comum ser erroneamente previsto como gerado por IA, porque os modelos de linguagem são otimizados diretamente para reduzir a perplexidade nos artigos da Wikipédia.

Este é um problema que se agrava à medida que a IA continua a desenvolver-se e a tornar-se mais avançada, porque os modelos de linguagem mais recentes são extremamente ávidos por dados: os rastreadores da OpenAI, Google e Anthropic estão a vasculhar furiosamente a Internet enquanto lê este artigo, continuando a ingerir dados para o treino de modelos de linguagem. Os editores e proprietários de sites devem se preocupar com o facto de permitir que esses rastreadores vasculhem seus sites para o treinamento de LLM possa significar que seu conteúdo seja classificado erroneamente como gerado por IA no futuro? As empresas que estão a considerar licenciar seus dados para a OpenAI devem avaliar o risco de que esses dados também sejam erroneamente classificados como IA depois que os LLMs os ingestarem? Consideramos isso um caso de falha completamente inaceitável, que está a piorar com o tempo.

Deficiência n.º 2: a perplexidade e a explosividade são diferentes para diferentes modelos linguísticos

Outro problema com o uso da perplexidade e da explosividade como métricas para detecção é que elas são relativas a um modelo de linguagem específico. O que pode ser esperado para o GPT, por exemplo, pode não ser esperado para o Claude. E quando novos modelos são lançados, a sua perplexidade também é diferente.

Os chamados detetores baseados na perplexidade da «caixa preta» precisam de escolher um modelo de linguagem para medir a perplexidade real. Mas quando a perplexidade desse modelo de linguagem difere da perplexidade do gerador, obtêm-se resultados extremamente imprecisos, e esse problema só se agrava com o lançamento de novos modelos.

Deficiência n.º 3: Os modelos comerciais nem sempre expõem a perplexidade

Os fornecedores de código fechado nem sempre apresentam as probabilidades de cada token, pelo que nem sequer é possível calcular a perplexidade para modelos comerciais de código fechado, como ChatGPT, Gemini e Claude. Na melhor das hipóteses, pode-se usar um modelo de código aberto para medir a perplexidade, mas isso acarreta os mesmos problemas da deficiência 2.

Deficiência nº 4: Texto em inglês não nativo (ESL) é falsamente classificado como IA

Surgiu uma narrativa de que a detecção por IA é tendenciosa contra falantes não nativos de inglês, apoiada por um estudo da Stanford de 2023 sobre 91 ensaios do TOEFL. Embora o Pangram faça uma avaliação comparativa extensa de textos em inglês não nativo e os incorpore ao nosso conjunto de treino para que o modelo seja capaz de reconhecê-los e detectá-los, os detectores baseados em perplexidade realmente apresentam uma taxa elevada de falsos positivos em textos em inglês não nativo.

A razão para isso é que os textos escritos por alunos que estão a aprender inglês geralmente apresentam menor perplexidade e menor explosividade. Acreditamos que isso não seja uma coincidência: isso ocorre porque, durante o processo de aprendizagem da língua, o vocabulário do aluno é significativamente mais limitado, e ele também não é capaz de formar estruturas de frases complexas que seriam fora do comum, ou altamente surpreendentes, para um modelo de linguagem. Argumentamos que aprender a escrever de uma forma altamente complexa e explosiva, mas linguisticamente correta, é uma competência linguística avançada que advém da experiência com a língua.

Os falantes não nativos de inglês, e acreditamos que, por extensão, os alunos neurodiversos ou com deficiência, são mais vulneráveis a serem detectados por detectores de IA baseados em perplexidade.

Deficiência n.º 5: Os detetores baseados na perplexidade não conseguem melhorar-se iterativamente

O que acreditamos ser a maior deficiência dos detetores baseados em perplexidade, e a razão pela qual nós, na Pangram, optámos por uma abordagem baseada em aprendizagem profunda, é que esses detetores baseados em perplexidade não conseguem melhorar-se com dados e escala computacional.

O que isso significa? À medida que o Pangram ganha mais experiência com textos humanos por meio do nosso algoritmo de aprendizagem ativa, ele gradualmente fica melhor. Foi assim que reduzimos nossa taxa de falsos positivos de 2% para 1%, para 0,1% e agora para 0,01%. Detectores baseados em perplexidade não são capazes de melhorar ao ver mais dados.

Recursos e leituras adicionais

Conclusão

Há uma grande diferença entre calcular uma estatística que se correlaciona com a escrita gerada por IA e construir um sistema de nível de produção que possa detectar com confiabilidade a escrita gerada por IA. Embora os detetores baseados em perplexidade capturem uma faceta importante do que torna a escrita humana humana e o que torna a escrita da IA IA, pelas razões descritas neste artigo, não é possível usar um detetor baseado em perplexidade para detectar com confiabilidade a escrita gerada por IA, mantendo uma taxa de falsos positivos baixa o suficiente para aplicações de produção.

Em ambientes como o da educação, onde evitar falsos positivos é fundamental, esperamos ver mais pesquisas voltadas para métodos baseados em deep learning e menos para métodos baseados em perplexidade e burstiness, ou métodos baseados em métricas.

Esperamos que isso ajude a entender por que a Pangram optou por não usar perplexidade e burstiness para detectar textos gerados por IA, concentrando-se, em vez disso, em métodos confiáveis e escaláveis.

Inscreva-se na nossa newsletter
Partilhamos atualizações mensais sobre a nossa investigação em deteção de IA.