Anunciamos uma nova parceria com a Proofig! Saiba mais
Estamos entusiasmados com a nova pesquisa de Jenna Russell, Marzena Karpinksa e Mohit Iyyer, colaboradores da Universidade de Maryland e da Microsoft, que mostra que o Pangram é o melhor sistema de deteção de IA e o único sistema capaz de superar especialistas humanos treinados na deteção de conteúdo gerado por IA. Leia o artigo completo aqui.

Além de estudar a eficácia dos detetores automatizados de IA, os investigadores também se aprofundam na forma como especialistas humanos treinados captam sinais que os ajudam a determinar os sinais reveladores de conteúdo gerado por IA. Acreditamos que esta investigação é um grande passo em frente para a explicabilidade e interpretabilidade na deteção de IA e estamos entusiasmados por explorar mais esta direção de investigação.
Nesta publicação do blogue, explicaremos os destaques da pesquisa e o que isso significa para o futuro da detecção de LLM.
Já escrevemos anteriormente sobre como detectar textos escritos por IA e o teste de referência humana, e como usamos isso para obter informações valiosas sobre textos gerados por IA que nos ajudam a desenvolver modelos melhores.
Normalmente, quando começamos a tentar treinar-nos para identificar críticas, ensaios, publicações em blogs ou notícias geradas por IA, no início, não somos muito bons nisso. Leva algum tempo até começarmos a perceber os sinais reveladores de que um texto foi gerado pelo ChatGPT ou outro modelo de linguagem. Por exemplo, quando começámos a estudar críticas, aprendemos com o tempo, analisando muitos dados, que o ChatGPT adora começar uma crítica com a frase «Recentemente, tive o prazer de», ou quando começámos a ler histórias de ficção científica geradas por IA, elas frequentemente começam com a frase «No ano de». No entanto, com o tempo, começamos a internalizar esses padrões e podemos começar a reconhecê-los.
Os investigadores também questionaram se os especialistas podem ser treinados para detectar artigos gerados por IA da mesma forma. Eles treinaram cinco anotadores no Upwork para detectar conteúdo gerado por IA e compararam a sua capacidade de detectar IA a olho nu com a de não especialistas.
Embora devêssemos esperar uma diferença na capacidade desses dois grupos de identificar o texto escrito por IA, o que os investigadores descobriram foi uma diferença substancial. Os não especialistas têm um desempenho semelhante ao acaso na deteção de texto gerado por IA, enquanto os especialistas são altamente precisos (mais de 90% de taxa de verdadeiros positivos, em média).

Uma secção que achámos muito interessante foi a intitulada «O que os anotadores especializados veem que os não especialistas não veem?». Os investigadores pediram aos participantes que explicassem por que achavam que um texto tinha sido gerado por IA ou não, e depois analisaram os comentários dos participantes.
Aqui está uma análise retirada diretamente do artigo:
Os não especialistas muitas vezes se fixam erroneamente em certas propriedades linguísticas, em comparação com os especialistas. Um exemplo é a escolha de vocabulário, em que os não especialistas consideram a inclusão de qualquer tipo de palavra "sofisticada" ou de baixa frequência como sinal de texto gerado por IA; em contrapartida, os especialistas estão muito mais familiarizados com palavras e frases exatas usadas em excesso pela IA (por exemplo, testamento, crucial). Os não especialistas também acreditam que os autores humanos são mais propensos a formar frases gramaticalmente corretas e, portanto, atribuem frases intermináveis à IA, mas o oposto é verdadeiro: os humanos são mais propensos do que a IA a usar frases não gramaticais ou intermináveis. Por fim, os não especialistas atribuem qualquer texto escrito num tom neutro à IA, o que resulta em muitos falsos positivos, porque a escrita humana formal também é frequentemente neutra no tom. (Russell, Karpinska e Iyyer, 2025).
No apêndice, os autores fornecem uma lista de «vocabulário de IA» comumente usado pelo ChatGPT – um recurso que lançamos recentemente no painel do Pangram, que destaca frases de IA comumente usadas!

Em nossa experiência, descobrimos que, apesar de muitas pessoas pensarem que a IA usa um vocabulário sofisticado e "refinado", na prática, ela tende a usar um vocabulário mais clichê e metafórico, que muitas vezes não faz sentido. Informalmente, diríamos que os LLMs são mais como pessoas que tentam parecer inteligentes, mas na verdade estão apenas usando frases que acham que vão fazê-las parecer inteligentes.
Uma pergunta que recebemos com frequência na Pangram é: como vocês se mantêm atualizados com os modelos de última geração? Quando os modelos de linguagem melhoram, isso significa que a Pangram deixará de funcionar? É um jogo de gato e rato em que laboratórios de ponta como a OpenAI nos vencerão?
Os investigadores também se questionaram sobre isso e estudaram o desempenho de vários métodos de deteção de IA em relação ao o1-pro da OpenAI, o modelo mais avançado lançado até à data.
Os investigadores descobriram que o Pangram é 100% preciso na detecção de resultados o1-pro, e ainda temos 96,7% de precisão na detecção de resultados o1-pro «humanizados» (que abordaremos em breve)! Em comparação, nenhum outro detetor automatizado chega a atingir 76,7% nos resultados o1-pro básicos.
Como é que o Pangram consegue generalizar desta forma? Afinal, na altura do estudo, nem sequer tínhamos quaisquer dados o1-pro no nosso conjunto de treino.
Como todos os modelos de aprendizagem profunda, acreditamos no poder da escala e da computação. Primeiro, começamos com um modelo base poderoso que é pré-treinado num enorme corpus de treino, tal como os próprios LLMs. Em segundo lugar, construímos um pipeline de dados destinado à escala. O Pangram é capaz de fazer um reconhecimento subtil de padrões a partir do seu corpus de treino de 100 milhões de documentos humanos.
Não criamos apenas um conjunto de dados para ensaios, notícias ou críticas: tentamos obter a maior rede possível de todos os dados escritos por humanos que existem, para que o modelo possa aprender com a distribuição de dados da mais alta qualidade e mais diversificada e aprender sobre todos os tipos de escrita humana. Descobrimos que esta abordagem geral à deteção de IA funciona muito melhor do que a abordagem especializada de criar um modelo por domínio de texto.
Complementar ao nosso conjunto de dados humanos extremamente grande e de alta qualidade está o nosso pipeline de dados sintéticos e o algoritmo de pesquisa baseado em aprendizagem ativa. Para obter os dados de IA para o nosso algoritmo, usamos uma biblioteca exaustiva de prompts e todos os principais modelos de IA de código aberto e fechado para gerar dados sintéticos. Utilizamos prompts espelho sintéticos, sobre os quais escrevemos no nosso relatório técnico, e mineração negativa rígida, que procura os exemplos com maior erro no nosso conjunto de dados e cria exemplos de IA muito semelhantes aos humanos, retreinando o modelo até não encontrarmos mais erros. Isso permite-nos reduzir as taxas de falsos positivos e falsos negativos do nosso modelo a zero de forma muito eficiente.
Em resumo, a nossa generalização provém da escala dos nossos dados de pré-treinamento, da diversidade de prompts e LLMs usados para geração de dados sintéticos e da eficiência dos dados da nossa abordagem de aprendizagem ativa e mineração negativa rigorosa.
Além disso, não só nos esforçamos para obter um ótimo desempenho fora da distribuição, mas também queremos garantir que o maior número possível de LLMs comuns esteja dentro da distribuição. Portanto, criámos um pipeline automatizado robusto para extrair dados dos modelos mais recentes, para que possamos começar a treinar novos LLMs assim que forem lançados e nos mantermos atualizados. Constatamos que não se trata de um compromisso entre equilibrar o desempenho em diferentes modelos: descobrimos que, sempre que introduzimos um novo LLM no conjunto de treino, a generalização do modelo melhora.
Com o nosso sistema atual, não estamos a constatar que, à medida que os modelos melhoram, eles se tornam mais difíceis de detetar. Em muitos casos, o modelo de última geração é, na verdade, mais fácil de detetar. Por exemplo, descobrimos que fomos mais precisos na deteção do Claude 3 quando ele foi lançado do que do Claude 2.
Na nossa recente série de publicações no blogue, descrevemos o que é um humanizador de IA e também lançámos um modelo com desempenho significativamente melhorado em textos de IA humanizados. Estamos satisfeitos por ver que uma entidade terceira já validou as nossas afirmações com um conjunto de dados de artigos humanizados da o1-pro.
No texto humanizado o1-pro, alcançamos uma precisão de 96,7%, enquanto o segundo melhor modelo automatizado é capaz de detectar apenas 46,7% do texto humanizado.
Também temos 100% de precisão no texto GPT-4o que foi parafraseado frase por frase.
Estamos entusiasmados com o forte desempenho do Pangram num estudo independente sobre capacidades de detecção de IA. Estamos sempre dispostos a apoiar a investigação académica e oferecemos acesso aberto a todos os académicos que desejem estudar o nosso detetor.
Além de comparar o desempenho dos detetores automatizados, estamos entusiasmados em ver pesquisas que também começam a abordar a explicabilidade e a interpretabilidade da deteção por IA: não apenas se algo foi escrito por IA, mas porquê. Estamos ansiosos para escrever mais sobre como esses resultados podem ajudar professores e educadores a identificar textos gerados por IA a olho nu e como planejamos incorporar ainda mais essa pesquisa em ferramentas de deteção automatizadas mais explicáveis.
Para mais informações, visite o nosso site pangram.com ou entre em contacto connosco através do e-mail info@pangram.com.
