Se estiver a enfrentar dificuldades técnicas, estamos a tratar do assunto. O Pangram deverá voltar a funcionar em breve.

Como o Pangram deteta conteúdos gerados por IA

Ver o relatório técnico em PDF

Visão geral

O Pangram Text foi concebido para detetar conteúdos gerados por IA com uma taxa de falsos positivos praticamente nula. A nossa abordagem de treino rigorosa minimiza os erros e permite que o modelo detete textos gerados por IA através da análise e compreensão de indícios subtis na escrita.

Processo de formação inicial

O nosso classificador utiliza uma arquitetura tradicional de modelo de linguagem. Recebe o texto de entrada e tokeniza-o. Em seguida, o modelo transforma cada token numa incorporação, que é um vetor de números que representa o significado de cada token.

A entrada é processada pela rede neural, produzindo uma representação de saída. Um classificador transforma essa representação de saída numa previsão de 0 ou 1, em que 0 corresponde à classificação humana e 1 à classificação da IA.

Treinamos um modelo inicial com um conjunto de dados pequeno, mas diversificado, de aproximadamente 1 milhão de documentos, composto por textos públicos e licenciados escritos por humanos. O conjunto de dados inclui também textos gerados por IA, produzidos pelo GPT-4 e por outros modelos linguísticos de ponta. O resultado do treino é uma rede neural capaz de prever com fiabilidade se um texto foi escrito por um humano ou por IA.

Melhoria contínua através da iteração

Mineração negativa difícil

O modelo inicial já era bastante eficaz, mas queríamos maximizar a precisão e reduzir qualquer possibilidade de falsos positivos (prever incorretamente que documentos escritos por humanos fossem gerados por IA). Para tal, desenvolvemos um algoritmo especificamente destinado a modelos de deteção de IA.

Com o conjunto de dados inicial, o nosso modelo não dispunha de sinal suficiente para passar de uma precisão de 99% para 99,999%. Embora o modelo aprenda rapidamente os padrões iniciais dos dados, é necessário que ele encontre casos extremos para distinguir com precisão entre texto humano e texto gerado por IA.

Resolvemos esta questão utilizando o modelo para procurar falsos positivos em grandes conjuntos de dados e enriquecendo o conjunto de treino inicial com estes exemplos difíceis adicionais antes de proceder a um novo treino. Após vários ciclos deste processo, o modelo resultante apresenta uma taxa de falsos positivos próxima de zero, bem como um desempenho globalmente melhorado nos conjuntos de avaliação reservados.

HUMANOIASugestões do Mirror
Sugestões do Mirror
Concebemos a parte do conjunto de dados gerada pela IA de forma a assemelhar-se estreitamente à parte humana em termos de estilo, tom e conteúdo semântico. Para cada exemplo humano, geramos um exemplo criado pela IA que corresponda ao documento original no maior número possível de aspetos, para garantir que o nosso modelo aprenda a classificar documentos baseando-se exclusivamente nas características específicas da escrita dos LLM.
Reciclar
Treinamos o modelo com um conjunto de treino atualizado e avaliamos o desempenho do modelo em cada etapa. Com este método, conseguimos reduzir os erros e aumentar a precisão do nosso modelo para além do que é possível com o treino normal.
diagrama de retreinamento do modelo

Saiba mais

arxiv.org
Relatório técnico sobre o classificador de texto gerado por IA Pangram
Consulte o nosso documento técnico completo no arXiv, onde abordamos em pormenor os detalhes do treino, o desempenho e outras experiências!