Anunciamos uma nova parceria com a Proofig! Saiba mais
Estudo independente mostra que o Pangram é o detector de IA mais robusto
Investigadores da Universidade de Houston, da UC Berkeley, da UC Irvine e da startup Esperanto AI descobriram que o Pangram é o detetor de texto de IA mais robusto entre uma ampla variedade de métodos comerciais e de código aberto. No artigo intitulado «Esperanto: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination» (Esperanto: Avaliação de frases sintetizadas para aumentar a robustez na deteção de IA para a origem do texto), os investigadores estudaram os efeitos da tradução de idiomas na capacidade dos detetores de IA.
É sabido que passar um texto gerado por IA pelo Google Tradutor para um idioma estrangeiro e depois retraduzir esse texto para o inglês pode ajudar um adversário (ou simplesmente um estudante inteligente com pouco tempo) a escapar dos programas de deteção de IA. Na Pangram, chamamos internamente a esse ataque de «tradução dupla», e os investigadores referem-se a ele como «retradução». Aqui está um exemplo de tradução dupla. Pedimos ao ChatGPT para escrever um texto para nós. Primeiro, traduzimos o texto para japonês e, em seguida, traduzimos de volta para inglês. Percebemos que algumas frases mudaram devido ao facto de o software de tradução não ser perfeito e, muitas vezes, haver várias maneiras de dizer a mesma coisa. Isso tem um efeito semelhante ao que uma ferramenta de parafraseamento como o Quillbot faz.
Texto gerado pelo ChatGPT
Texto traduzido duas vezes
Um exemplo de tradução dupla
Muitos dos nossos concorrentes não são robustos a essa exploração. Acima está um dos detectores de IA concorrentes mais comuns em uso no mercado. Vemos que o modelo pode detectar IA diretamente do ChatGPT, mas, uma vez submetido a uma tradução dupla, ele prevê apenas 15% de IA.
Resultados do GPTZero
Uma ferramenta concorrente popular classifica corretamente o texto original da IA, mas classifica incorretamente o texto traduzido duas vezes como escrito por humanos.
O Pangram, no entanto, é capaz de prever tanto o texto original do ChatGPT quanto o texto traduzido duas vezes como 99,99% IA. Não só somos capazes de prever que este é um texto gerado por IA, como também podemos prever com segurança que foi o GPT-4 a fonte original. Os investigadores decidiram estudar este fenómeno em termos gerais, em grande escala.
Resultados do Pangram
O Pangram identifica corretamente tanto o texto original quanto o texto traduzido duas vezes como gerado por IA.
Um exemplo não é suficiente para provar que o nosso detetor é robusto e os outros não. No estudo de investigação, os investigadores obtiveram milhares de artigos de notícias, resumos de artigos científicos, publicações no Reddit e análises de produtos confirmadas como sendo escritas por humanos. Em seguida, geraram vários exemplos de IA usando GPT-3.5-Turbo, LLaMA 3, Mistral, Phi3 e Yi.
De modo geral, mesmo antes de empregar um ataque de tradução, muitos dos métodos de código aberto e detectores comerciais são, na verdade, completamente ineficazes.
Primeiro, foi escolhido um limite: isto significa selecionar a percentagem acima da qual consideramos um documento como sendo AI. A maioria dos detetores de AI fornece uma percentagem como resultado final. Para colocar todos os detetores em termos comparáveis, os limites foram escolhidos de forma a que cada modelo tivesse uma taxa de falsos positivos de 1%. Assim, a precisão do detetor pode ser comparada como a fração de verdadeiros positivos: quantos exemplos de AI cada detetor consegue captar nesse limite?
Muitos dos outros métodos estudados no artigo falham completamente na deteção de conteúdo de IA. Por exemplo, o ZeroGPT e o GPTZero não conseguem atingir nem mesmo uma taxa de falsos positivos de 1% em qualquer limiar em alguns domínios, e artigos académicos bem citados, como RADAR e LLMDet, têm menos de 50% de precisão.
A métrica proposta para avaliar o desempenho é medir a TPR @ 1% FPR: ou seja, dada uma taxa de falsos positivos constante de 1%, com que frequência o modelo consegue detetar texto gerado por IA? O ZeroGPT não consegue atingir uma taxa de falsos positivos de 1% em nenhum limiar na maioria dos domínios, e artigos académicos bem citados, como RADAR e LLMDet, atingem bem menos de 50% nesta métrica.
Entretanto, o Pangram atinge mais de 96% de recall em todos os domínios com 1% de FPR, e chega a atingir 85% no desafiante conjunto de dados de avaliações, que contém avaliações com apenas 40-50 palavras (o que está bem abaixo do nosso limite recomendado de contagem de palavras para detetar IA em uso comercial).
Após um ataque de tradução dupla, muitos dos detetores falham completamente. O GPTZero, por exemplo, cai de 97% para apenas 42% no domínio das notícias e de 65% para 9% no domínio das críticas. Os investigadores concluem que «os resultados do GPTZero e do ZeroGPT indicam uma falta de robustez contra técnicas de retrotradução... O Pangram exibe um certo grau de robustez, especialmente em textos mais longos».
Os resultados completos são reproduzidos aqui. O Pangram apresenta um desempenho superior em todas as categorias.
Tabela de resultados comparando detectores de IA
Tabela de resultados do artigo em esperanto mostrando a robustez do Pangram
Esta pesquisa reforça ainda mais a nossa afirmação de que o Pangram é o único software de deteção de IA no mercado atual que funciona de forma suficientemente fiável para ser utilizado em ambientes académicos e comerciais, e que não pode ser contornado por truques como a tradução dupla.
Isso não é um acidente nem uma coincidência. A robustez do Pangram é prova de um modelo poderoso que sabe generalizar e é apoiado por grandes conjuntos de dados e pela nossa abordagem de aprendizagem ativa direcionada. Embora qualquer pessoa possa criar uma ferramenta de deteção de IA que funcione algumas vezes ou até na maioria das vezes, a nossa abordagem escalável é a única maneira de obter precisão confiável e consistente que não falha completamente quando o texto é modificado ou alterado.
Estamos sempre a trabalhar para melhorar o desempenho e a robustez do nosso modelo de deteção de IA. Mantemo-nos atualizados com as últimas pesquisas em aprendizagem automática adversária e estamos constantemente a testar o nosso próprio modelo contra possíveis ataques e contornamentos.
Mais informações sobre este tema em breve!
