Anunciamos uma nova parceria com a Proofig! Saiba mais

Relatório técnico sobre detecção de texto gerado por IA com alta precisão

Bradley Emi e Max Spero
21 de fevereiro de 2024

Processo de treino para o classificador de texto gerado por IA da Pangram Labs

Introdução

Na Pangram Labs, estamos a construir o melhor modelo de deteção de texto com IA para proteger a Internet de ser inundada por conteúdo inautêntico, enganoso e de baixa qualidade. Acreditamos que, num mundo possibilitado por LLMs, os seres humanos precisarão estar equipados com o melhor conjunto de ferramentas para identificar a verdade, e queremos fornecer a tecnologia certa para atender a essa necessidade.

A Pangram Labs criou um classificador rigoroso para detetar textos gerados por IA que poderiam ser classificados como spam ou conteúdo fraudulento. Quão melhor é o nosso modelo em relação às alternativas disponíveis no mercado? Nesta publicação do blogue, apresentamos uma análise abrangente do desempenho do nosso modelo, acompanhada pelo nosso primeiro white paper técnico público.

Esta publicação no blog abordará vários tópicos:

  • Por que a deteção de texto gerado por IA é um problema importante?
  • Qual é o melhor detetor de conteúdo gerado por IA?
  • Por que a alta precisão é importante?
  • Que tipos de conteúdo a Pangram Labs consegue detetar?
  • Como a Pangram Labs abordou a resolução deste problema?

Para uma análise mais técnica e aprofundada, incluindo a metodologia, consulte o nosso Relatório Técnico sobre o Classificador de Texto Gerado por IA Pangram.

TL;DR

Realizámos uma análise comparativa competitiva utilizando quase 2000 documentos para determinar métricas de precisão essenciais, incluindo precisão geral, casos de falsos positivos e casos de falsos negativos.

Our text classifier outperforms academic methods and shows significantly lower error rates in a comprehensive benchmark against other available AI text detection methods. Our model demonstrates 99.85% accuracy with 0.19% false positive rate across thousands of examples across ten different categories of writing and eight commonly used large language models. Other methods fail on more capable LLMs such as GPT-4 (<=75% accuracy) while Pangram Labs sustains 99-100% accuracy across all language models tested.

Comparação geral da precisão

Introdução ao texto gerado por IA

Os grandes modelos de linguagem (LLMs), como o ChatGPT, explodiram em popularidade em 2023, quando as capacidades da IA atingiram um ponto de inflexão. Os LLMs que alimentam os assistentes de IA podem responder a perguntas, debater ideias, escrever conteúdos, tudo isso soando convincentemente humanos. Isso produziu alguns resultados positivos: as informações estão mais acessíveis do que nunca e os assistentes podem poupar o nosso tempo ao realizar tarefas rotineiras. No entanto, qualquer pessoa é capaz de produzir textos convincentemente humanos sem praticamente nenhum esforço, o que tem as suas desvantagens. Os spammers podem escrever e-mails que são mais difíceis de filtrar. Os vendedores de mercados online podem produzir milhares de avaliações com aparência autêntica em minutos. Pessoas mal-intencionadas podem usar as redes sociais e influenciar a opinião pública com milhares de bots alimentados por LLMs.

Infelizmente, esses riscos sociais não podem ser mitigados no nível LLM — os modelos de linguagem não têm como saber se uma solicitação é legítima ou se é uma entre milhares criadas por um spammer. Por esse motivo, precisamos de filtros de conteúdo na camada de aplicação — para manter os espaços humanos humanos.

Por que a Pangram Labs é obcecada pela precisão

Ouvimos muito ceticismo em relação a esse tipo de trabalho. Que o problema é impossível, que já foi demonstrado que os detetores de IA «não funcionam» ou que é possível simplesmente contorná-los. Ou mesmo que seja possível agora, será mais difícil no próximo ano e impossível quando a AGI for lançada.

A nossa tese é um pouco diferente. Acreditamos com convicção que este problema não só é possível, como necessário resolver. Não importa o quão difícil seja, quantas horas tenhamos de dedicar para construir algo que os utilizadores possam usar e confiar. Sem o nosso trabalho, é apenas uma questão de anos até que a Internet seja invadida por spammers de IA. As vozes humanas serão abafadas pelo ruído.

Para nós, garantir que o problema seja resolvido envolve continuar a aumentar a dificuldade dos nossos conjuntos de avaliação. As avaliações iniciais eram fáceis de atingir 100% de precisão, mas rapidamente ficou evidente que isso não refletia a precisão do mundo real. Ao criar avaliações mais difíceis, conseguimos medir a nossa melhoria de forma objetiva. Já acreditamos que o nosso benchmark atual é um pouco mais difícil do que o que os spammers do mundo real produzem, e esse benchmark está quase no máximo. Quando voltarmos com novos números, pode parecer que outros métodos ficaram ainda piores, mas a realidade é que voltaremos com um conjunto de avaliação mais difícil, com as IAs mais capazes sendo levadas ao limite para criar textos que pareçam autênticos, e o nosso objetivo ainda é conseguir detectá-los com 99% de precisão.

O problema nunca será totalmente resolvido, mas precisamos avançar de forma constante para evitar ficar para trás, à medida que os LLMs se tornam cada vez mais capazes. Foi para isso que nos comprometemos e é isso que continuaremos a perseguir até ao fim.

Comparação de ferramentas de deteção de IA

No nosso relatório técnico, comparamos a Pangram Labs com as duas principais ferramentas de deteção de IA, bem como com um método académico de ponta para deteção de IA de 2023.

Comparamos:

  • Laboratórios Pangram
  • GPTZero
  • Originalidade.ai
  • DetectarGPT

A nossa referência inclui 1.976 documentos - metade deles escritos por humanos, a outra metade gerada por oito dos LLMs mais populares, incluindo ChatGPT e GPT-4.

Comparação geral da precisão

Uma breve explicação sobre o que estes números significam:

  • Precisão: Qual foi a percentagem do total de documentos que a ferramenta classificou corretamente?
  • Taxa de falsos positivos: de todos os documentos humanos, quantos foram classificados incorretamente como IA?
  • Taxa de falsos negativos: de todos os documentos da IA, quantos foram classificados incorretamente como humanos?

Para demonstrar a taxa de falsos positivos de forma concreta — 9% significa que um em cada 11 documentos humanos será sinalizado como IA. Uma taxa de falsos positivos de 2% significa que um em cada 50 documentos humanos será sinalizado como IA. E 0,67% significa que um em cada 150 documentos humanos será sinalizado como IA.

Da mesma forma, uma taxa de falsos negativos de 10% significa que um em cada dez documentos de IA passa despercebido, enquanto uma taxa de falsos negativos de 1,4% significa que um em cada setenta documentos de IA passa despercebido.

Considere as implicações destes resultados. Um modelo de deteção com uma taxa de falsos positivos de 9% não é confiável — caso contrário, haveria muitas acusações falsas. E um modelo de deteção com uma taxa de falsos negativos de 10% permitiria a passagem de tanto spam de IA que, diante de qualquer ataque, os utilizadores continuariam a ser inundados.

Aprofundando os resultados

A nossa referência é dividida em dois eixos diferentes: domínio do texto e LLM de origem. «Domínio do texto» ou apenas «domínio» é uma forma de se referir a uma categoria específica de escrita. Por exemplo, uma redação do ensino básico é muito diferente de um artigo científico, que por sua vez é muito diferente de um e-mail. Ao dividir os resultados em diferentes domínios, podemos ter uma visão mais abrangente das áreas em que nos destacamos e onde podemos concentrar os nossos esforços para melhorar.

Precisão por domínio de texto

Os resultados mostram que o Pangram Labs supera o GPTZero e o Originality em todos os dez domínios avaliados.

Um dos domínios, o e-mail, apresenta um resultado especialmente forte, pois a Pangram Labs não inclui nenhum e-mail nos seus dados de treino. O nosso desempenho em e-mails é impulsionado inteiramente pelo treino de um modelo robusto que generaliza para a maioria das categorias de escrita que um LLM pode produzir.

Documentos de IA corretamente classificados, por origem LLM

A divisão por origem LLM conta outra história, que os modelos concorrentes de deteção de IA podem ter um desempenho melhor em modelos de código aberto menos capazes, mas têm um desempenho pior no ChatGPT (gpt-3.5-turbo) e realmente enfrentam dificuldades no GPT-4, o LLM mais capaz da OpenAI. Avaliámos várias versões dos modelos GPT 3.5 Turbo e GPT-4, pois estes são os mais comumente usados na prática.

Descobrimos que somos o único modelo capaz de detetar texto GPT-4 de forma confiável e que superamos a concorrência em todos os outros modelos que testamos.

Uma observação interessante é que a nossa concorrência tem um desempenho muito melhor nos modelos de código aberto do que nos modelos GPT e Gemini de código fechado. Nossa hipótese é que isso se deve à dependência excessiva dos recursos de perplexidade e burstiness – embora esses recursos sejam valiosos, só é possível calcular com precisão a perplexidade e o burstiness em um modelo de código aberto: nos modelos de código fechado, só é possível fazer uma estimativa aproximada. Isso mostra o valor da nossa abordagem baseada em deep learning – ela não depende de recursos frágeis como a perplexidade e pode aprender padrões subjacentes mais sutis.

Robustez

Uma pergunta que nos fazem frequentemente é: o que acontece quando um novo modelo de linguagem é lançado? É necessário treinar cada novo modelo para detectar os seus resultados? Resumindo, não. A OpenAI lançou duas novas versões dos seus LLMs nas últimas semanas. Sem treinar esses novos LLMs, avaliámos o nosso modelo e descobrimos que ainda assim obtivemos bons resultados!

  • GPT-3.5-Turbo-0125: 99,66% de precisão
  • GPT-4-0125-Pré-visualização: 99,18% de precisão

Esses novos lançamentos são semelhantes às versões anteriores lançadas pela OpenAI. Portanto, a próxima pergunta que fazemos é: como nos saímos em famílias de modelos completamente diferentes? Para responder a isso, avaliámos o nosso modelo em vários modelos de código aberto que o nosso classificador nunca tinha visto antes.

Desempenho do LLM de código aberto, não observado pela Pangram Labs durante o treinamento.

Muito bom! Muito disso tem a ver com o facto de muitos modelos de código aberto começarem a partir da família Llama ou usarem conjuntos de treino de código aberto semelhantes, mas isso ajuda-nos a ter confiança na nossa capacidade de generalizar sem precisar de treinar em todos os modelos de código aberto.

Dito isto, o nosso pipeline de dados foi construído de forma a podermos gerar um novo conjunto de treino poucas horas após o lançamento de uma API LLM - com o único obstáculo sendo o limite de taxa da API. Estamos cientes de que os LLMs continuam a melhorar e, à medida que nos aproximamos da AGI, será cada vez mais importante manter-nos atualizados e garantir que podemos acompanhar até mesmo os agentes de IA mais avançados.

Inglês como segunda língua

Pesquisas anteriores descobriram que os detectores LLM comerciais são consistentemente tendenciosos contra falantes não nativos (ESL, ou inglês como segunda língua). Para testar isso, os investigadores usaram uma referência de 91 ensaios do TOEFL (Teste de Inglês como Língua Estrangeira) para testar vários detectores.

Selecionámos as 91 redações do TOEFL do nosso conjunto de treino e avaliámos a Pangram Labs com base nesse benchmark. Graças ao nosso trabalho de minimização das taxas de falsos positivos para ESL, relatamos uma taxa de falsos positivos de 0% no benchmark do TOEFL, o que significa que nenhuma das redações humanas neste benchmark foi classificada erroneamente como IA.

Comparação com o padrão de referência do TOEFL

A abordagem da Pangram Labs à deteção de IA

Detectar conteúdo gerado por IA não é uma tarefa fácil. Treinamos um modelo de aprendizagem profunda com uma arquitetura baseada em transformadores, usando dois métodos principais para elevar a precisão do nosso modelo a um novo patamar.

Espelhos sintéticos

Todos os documentos do nosso conjunto de treino são rotulados como «Humano» ou «IA». Na aprendizagem automática, chamamos a estes documentos «exemplos».

Temos milhões de exemplos humanos disponíveis para treinar a partir de conjuntos de dados públicos, mas não temos conjuntos de dados de IA equivalentes. Resolvemos isso emparelhando cada exemplo humano com um «espelho sintético» — um termo que usamos para descrever um documento gerado por IA baseado num documento humano. Solicitamos um LLM pedindo um documento sobre o mesmo tópico e com o mesmo comprimento. Para uma fração dos exemplos, fazemos com que o LLM comece com a primeira frase do documento humano, para tornar os documentos de IA mais variados.

Mineração negativa difícil

Logo no início, atingimos um limite no treino do nosso modelo. Tentámos adicionar mais exemplos, mas acabámos por descobrir que o modelo estava «saturado» — mais exemplos de treino não melhoravam ainda mais o modelo.

Experiência com leis de escala

O desempenho desse modelo inicial foi insatisfatório — ele ainda apresentava uma taxa de falsos positivos superior a 1% em muitos domínios. Descobrimos que não precisávamos apenas de mais exemplos, mas de exemplos mais difíceis.

Identificámos exemplos mais difíceis pegando no nosso modelo inicial e analisando dezenas de milhões de exemplos humanos em conjuntos de dados abertos, procurando os documentos mais difíceis que o nosso modelo classificou incorretamente. Em seguida, gerámos espelhos sintéticos para esses documentos e adicionámo-los ao nosso conjunto de treino. Por fim, voltámos a treinar o modelo e repetimos o processo.

Processo de treino para o classificador de texto gerado por IA da Pangram Labs

Com este método de treino, conseguimos reduzir as nossas taxas de falsos positivos por um fator de 100 e lançar um modelo do qual nos orgulhamos.

Tabela de taxas de falsos positivos por domínio

Chamamos esse método de mineração negativa rígida com espelhos sintéticos e abordamos o processo com mais detalhes em nosso relatório técnico.

O que vem a seguir para a Pangram Labs?

Obviamente, esta não é a conclusão da nossa jornada. Temos várias novas ideias sobre como podemos elevar o desempenho a um novo patamar. Continuaremos a melhorar os nossos conjuntos de avaliação para que possamos acompanhar melhor a taxa de falsos positivos em centésimos de um por cento. Estamos a planear expandir o nosso modelo para funcionar em idiomas que não sejam o inglês e a trabalhar para compreender e identificar os nossos casos de falha. Fique atento ao que faremos a seguir!

Alguma dúvida ou comentário? Entre em contacto connosco pelo e-mail info@pangram.com!

Inscreva-se na nossa newsletter
Partilhamos atualizações mensais sobre a nossa investigação em deteção de IA.