Anunciamos uma nova parceria com a Proofig! Saiba mais
Um dos aspetos mais importantes do nosso trabalho na Pangram é minimizar a nossa taxa de falsos positivos. Isso significa reduzir ao máximo a possibilidade de textos escritos por humanos serem sinalizados como gerados por IA. Hoje, explicaremos as taxas de falsos positivos da Pangram em muitos tipos diferentes de escrita, como medimos e avaliamos os nossos modelos para garantir que a taxa de falsos positivos seja a mais baixa possível e, finalmente, algumas das técnicas que empregamos para construir um software de deteção de IA com a menor taxa de falsos positivos do setor.
No contexto da deteção de IA, um falso positivo ocorre quando um detetor prevê erroneamente que uma amostra gerada por humanos foi gerada por IA. Em contrapartida, um falso negativo ocorre quando uma amostra gerada por IA é erroneamente prevista como sendo humana.
Falsos positivos e falsos negativos na deteção por IA
O diagrama acima ilustra os dois tipos de erros. Se o vermelho representa a classe negativa e o verde representa a classe positiva, um X vermelho previsto como verde seria um falso positivo, e um O verde previsto como vermelho seria um falso negativo.
Em estatística, são utilizados os termos erro do tipo I e erro do tipo II: estes termos têm exatamente o mesmo significado. Um erro do tipo I é um falso positivo, e um erro do tipo II é um falso negativo. Os estatísticos e, em particular, aqueles que trabalham nas ciências médicas também utilizam os termos sensibilidade e especificidade para distinguir estas duas taxas de erro. Os cientistas de aprendizagem automática utilizam os termos precisão e recuperação. Embora existam algumas pequenas diferenças técnicas entre estes termos, para fins educativos, neste artigo, vamos nos limitar a utilizar simplesmente «falsos positivos» e «falsos negativos», pois considero que estes são os termos mais autoexplicativos para estes dois tipos de erros.
Na detecção de IA, um falso positivo é muito pior do que um falso negativo. Acusar repetidamente os alunos que escrevem trabalhos por conta própria, sem ajuda de IA, de plágio por IA prejudica muito a confiança entre aluno e professor e pode causar muita ansiedade e stress ao aluno. Por outro lado, um falso negativo pode significar que um trapaceiro pode escapar de vez em quando, o que não é um resultado tão ruim.
Vale a pena notar que, em outros problemas de detecção, o falso negativo pode causar muito mais danos do que o falso positivo: por exemplo, é muito melhor que um teste de rastreio de cancro indique erroneamente que o paciente tem cancro do que o teste não detectar o cancro real do paciente. Se o teste indicar falsamente que o paciente tem cancro, embora possa ser inconveniente para o paciente ter de voltar para acompanhamento, exames e testes adicionais, isso é muito melhor do que deixar de diagnosticar um cancro, o que é uma ameaça à vida do paciente.
Voltando à deteção de IA, um falso positivo causa mais danos do que um falso negativo, mas ambos são importantes: ignorar consistentemente textos gerados por IA e prever falsamente que são humanos também prejudica o valor da ferramenta. Portanto, na Pangram, a nossa abordagem geral é minimizar tanto os falsos negativos quanto os falsos positivos, mas tratando os falsos positivos como uma prioridade maior.
A resposta é: depende!
No geral, calculamos que a nossa taxa de falsos positivos seja de aproximadamente 1 em 10.000: às vezes um pouco mais alta, outras vezes um pouco mais baixa, dependendo do tipo de texto e de outras variáveis.
Medimos a taxa de falsos positivos do Pangram numa ampla variedade de textos: chamamos a isso de domínios. Embora não seja exaustiva, abaixo estão as nossas taxas de falsos positivos mais atualizadas, que medimos internamente em cada domínio:
| Domínio | Taxa de falsos positivos |
|---|---|
| Ensaios académicos | 0.004% |
| Avaliações do produto (inglês) | 0.004% |
| Avaliações de produtos (espanhol) | 0.008% |
| Avaliações do produto (japonês) | 0.015% |
| Resumos científicos | 0.001% |
| Documentação do código | 0.0% |
| Transcrições do Congresso | 0.0% |
| Receitas | 0.23% |
| Artigos médicos | 0.000% |
| Avaliações de empresas dos EUA | 0.0004% |
| Roteiros de filmes de Hollywood | 0.0% |
| Wikipedia (inglês) | 0.016% |
| Wikipedia (espanhol) | 0.07% |
| Wikipedia (japonês) | 0.02% |
| Wikipedia (árabe) | 0.08% |
| Artigos de notícias | 0.001% |
| Livros | 0.003% |
| Poemas | 0.05% |
| Discursos políticos | 0.0% |
| Perguntas e respostas nas redes sociais | 0.01% |
| Escrita criativa, contos | 0.009% |
| Artigos com instruções | 0.07% |
Em geral, o Pangram tem melhor desempenho quando as seguintes condições são atendidas:
Acreditamos que esses fatores são a razão pela qual o Pangram tem melhor desempenho em ensaios, redação criativa e resenhas. Embora artigos de notícias, trabalhos científicos e entradas da Wikipédia sejam mais formulaicos e técnicos, a disponibilidade de dados é abundante nesses domínios e, portanto, o Pangram tornou-se muito bom em reconhecer até mesmo padrões sutis na escrita. Por fim, domínios como receitas e poesia são os mais fracos, porque o texto tende a ser curto, não é escrito em frases completas (dando ao LLM menos oportunidades de injetar seu estilo idiossincrático no texto) e geralmente são mais raros online do que os outros domínios.
Na prática, o que isso significa? Embora o Pangram ainda seja relativamente confiável em todos os domínios, você pode ter mais confiança na precisão do Pangram quando o texto é longo, em frases completas e requer mais contribuição original do escritor. Por esse motivo, não recomendamos a análise de itens como listas curtas com marcadores e esboços, matemática, respostas muito curtas (por exemplo, frases únicas) e textos extremamente formulaicos, como longas listas de dados, planilhas, textos baseados em modelos e manuais de instruções.
Não podemos realizar a mesma avaliação comparativa exaustiva aos nossos concorrentes, simplesmente porque o custo para fazê-lo seria extremamente proibitivo. No entanto, podemos analisar o que os nossos concorrentes dizem ser a sua taxa de falsos positivos.
Taxa de falsos positivos relatada pela Turnitin no seu site
O último relatório técnico da Turnitin indica uma taxa de falsos positivos de 0,51% em textos académicos, ou aproximadamente 1 em cada 200, ao nível do documento. Isso significa que 1 em cada 200 trabalhos enviados pelos alunos será falsamente sinalizado como IA.
A nossa taxa de falsos positivos, medida num conjunto de dados semelhante de ensaios académicos, é de 0,004%, ou seja, 1 em cada 25 000.
Esta é uma diferença significativa. Numa grande universidade de investigação, podem ser submetidos 100 000 trabalhos por ano. Esta é a diferença entre 500 falsos positivos para o Turnitin e apenas 4 para o Pangram.
Taxa de falsos positivos relatada pela GPTZero no seu site
O GPTZero afirma ter uma taxa de falsos positivos de 1%, o que é duas vezes pior do que o Turnitin e 250 vezes pior do que o Pangram.
Fizemos uma comparação interna entre o GPTZero e o Pangram num conjunto menor de documentos do nosso conjunto VIP geral, para uma comparação justa. Descobrimos que o falso positivo era pior do que o relatado, com 2,01%.
Taxa de falsos positivos relatada pela Copyleaks no seu site
A Copyleaks afirma ter uma taxa de falsos positivos de 0,2%, ou 1 em 500, o que seria 50 vezes pior do que o Pangram, se fosse verdade.
Além disso, um número isolado como este não conta toda a história. Não sabemos de onde vêm os dados e quais os potenciais enviesamentos que podem ter existido na avaliação. É por isso que fazemos uma análise comparativa minuciosa e estamos a publicar este artigo detalhando o nosso processo de avaliação do nosso modelo.
Analisando o estudo RAID publicado no ano passado por Liam Dugan e coautores, estudo nº 2 no artigo de compilação de pesquisas que publicámos, gostaríamos de chamar a atenção para o gráfico a seguir.
Estudo RAID sobre taxas de falsos positivos em detectores
A maioria dos detetores fornece um «limiar», que é a percentagem de confiança acima da qual o modelo considera que o texto é AI e abaixo da qual o modelo considera que o texto é humano. Ao alterar o limiar, é possível equilibrar os falsos positivos e os falsos negativos.
Neste gráfico, no eixo x está a taxa de falsos positivos causada pela alteração do limiar e no eixo y está a recuperação: que é a fração de documentos de IA que podem ser classificados como IA quando avaliados nesse limiar.
Resumindo, os detetores dos nossos concorrentes deixam de funcionar quando são forçados a ter uma taxa de falsos positivos inferior a 1%; ou seja, eles não seriam capazes de detectar qualquer IA quando o limite fosse baixo o suficiente para produzir uma FPR de 1%.
A Pangram passa por um processo extremamente rigoroso de aprovação e testes antes que qualquer novo modelo seja autorizado a ser implementado no nosso painel e API.
Durante o nosso controlo de qualidade, temos três tipos de testes para falsos positivos, cada um deles equilibrando a avaliação quantitativa e qualitativa. As nossas avaliações incluem:
Conjuntos de retenção em grande escala. Aproximadamente 10.000 a 10.000.000 de exemplos por conjunto. Trata-se de bases de dados em grande escala e de acesso aberto na Internet anteriores ao ChatGPT (2022), das quais selecionámos um conjunto de retenção que não foi treinado e reservado exclusivamente para fins de avaliação.
Conjuntos VIP de média escala. Aproximadamente 1.000 exemplos por conjunto. São conjuntos de dados que engenheiros ou rotuladores coletaram manualmente de fontes confiáveis, inspecionaram visualmente e validaram pessoalmente como sendo escritos por humanos. Embora especialistas treinados sejam bons em detectar conteúdo gerado por IA visualmente, eles ocasionalmente cometem erros e, por isso, auditamos regularmente os dados e os limpamos para garantir a precisão.
Conjuntos de desafios. Aproximadamente 10 a 100 exemplos por conjunto. São falsos positivos relatados anteriormente, casos difíceis que os nossos amigos nos enviaram e, em geral, apenas exemplos interessantes sobre os quais queremos saber como nos saímos. Também recolhemos exemplos de textos fora do comum, como receitas, poesia, roteiros de filmes e outras formas escritas que não estão bem representadas em grandes conjuntos de treino de modelos de linguagem, e consideramos esses exemplos como conjuntos de desafios, bem como uma referência geral para avaliar o desempenho do nosso modelo quando colocado «fora da distribuição».
Além desses três tipos de controle de qualidade, também temos testes unitários. Esses testes unitários, coloquialmente, testam o nosso modelo para o que chamamos de «falhas embaraçosas». O nosso conjunto atual de testes unitários exige que prevejam humanos para documentos como a Declaração da Independência, frases famosas da literatura e o conteúdo do nosso próprio site e publicações no blog. Se qualquer um desses testes unitários falhar, bloqueamos a implementação de um novo modelo e voltamos à prancheta. Uma das nossas filosofias orientadoras para a avaliação é ser hipervigilante no rastreamento e monitoramento dessas "falhas embaraçosas", para que elas nunca regredam quando um novo modelo é lançado.
Diagrama mostrando os três tipos de conjuntos de avaliação usados na Pangram: conjuntos de retenção em grande escala (mais de 10 milhões de exemplos), conjuntos VIP em média escala (mais de 1000 exemplos) e conjuntos de desafio (10 a 100 exemplos)
As pessoas com inclinação para a matemática e as ciências podem perguntar: por que é necessária uma avaliação qualitativa? Mais amostras não são sempre melhores?
A minha resposta a isso seria: mais amostras nem sempre são melhores. Como um sábio profeta disse uma vez, existem mentiras, mentiras descaradas e estatísticas. Mas, falando sério, acreditamos que, quando se cria um grande conjunto de dados em escala, sempre se acaba introduzindo algum tipo de viés. E quando se tem um conjunto de dados tão grande que não é possível inspecionar todos os exemplos, não se sabe se o modelo se ajustou excessivamente a um viés no conjunto de dados que fará com que ele tenha um bom desempenho no teste, mas um desempenho ruim no mundo real. (Como observação, acreditamos que é por isso que existem muitos detetores de IA online que relatam "99% de precisão", mas não chegam nem perto disso quando realmente testados).
Um exemplo engraçado que ilustra a importância dessas múltiplas variedades de conjuntos de testes ocorreu nos primeiros dias do Pangram, quando introduzimos a Wikipedia no conjunto de treino. Uma das nossas primeiras tentativas fracassadas acabou sendo ótima no conjunto de teste, mas muito ruim no conjunto VIP, que era composto por artigos da Wikipedia coletados manualmente. O que acabámos por descobrir foi que, no conjunto de dados Huggingface que estávamos a usar, do lado humano, a pronúncia do nome expressa no Alfabeto Fonético Internacional estava a ser reformatada de uma maneira realmente estranha, à qual o modelo estava a se ajustar excessivamente: ele apenas olhava para a formatação do nome e, então, concluía com base na formatação se o documento era de IA ou humano. Ótimo no conjunto de teste, mas péssimo no mundo real, quando o modelo não tinha essa pista específica! Essa é a importância de ter um conjunto de teste que reflita com precisão o tipo de texto que o Pangram verá no mundo real.
Antes de enviarmos um modelo aos clientes da Pangram, passamos por um rigoroso procedimento de aprovação que envolve uma avaliação quantitativa e qualitativa, na qual testamos o modelo e examinamos o seu desempenho em relação ao modelo atual.
Avaliação quantitativa: significa que as métricas da taxa de falsos positivos em todos os holdouts, conjuntos VIP e casos de desafio não devem ser regredidas.
Avaliação qualitativa: na maioria dos casos, alguns exemplos serão melhorados e outros serão regredidos. Sempre que possível, analisamos visualmente os exemplos específicos que são regredidos e garantimos que as falhas sejam explicáveis. Isso geralmente é sutil e específico para as hipóteses particulares que estamos a testar, mas, em geral, queremos garantir que os casos de falha não apresentem um padrão específico que se generalize para falhas no mundo real após a implementação.
Verificação da vibração / equipa vermelha: Finalmente, uma vez concluídas as avaliações quantitativas e qualitativas, simplesmente verificamos a vibração do modelo enviando-o para a equipa e pedindo-lhes que brinquem com ele por um tempo. Para algumas atualizações, também podemos ter testadores internos ou clientes beta a testar o modelo antes de lançá-lo publicamente (normalmente, incentivamo-los a tentar encontrar casos que quebrem o modelo!).
Teste A/B retroativo: executamos inferências offline nas nossas previsões antigas e analisamos as diferenças entre o modelo antigo e o novo. Nem sempre temos a verdade fundamental para os dados que inferimos anteriormente, mas, novamente, procuramos padrões consistentes que possam apresentar casos de falha no mundo real.
Em resumo, embora sejamos extremamente meticulosos e científicos na medição do desempenho do nosso modelo com métricas e estatísticas, não confiamos apenas nos números para nos dar uma visão completa. Também confiamos nos nossos olhos, intuição e capacidade de reconhecimento de padrões para examinar o modelo e encontrar padrões de erros que as nossas métricas possam ter deixado passar. Também contamos com a nossa equipa de testadores, red-teamers e clientes beta para encontrar falhas que a equipa possa ter deixado passar.
Manter uma baixa taxa de falsos positivos é fundamental para a nossa missão de pesquisa. Aqui estão algumas das técnicas que usamos até agora para alcançar a melhor taxa de erro da categoria.
Embora os detectores de IA concorrentes possam ser «criados para o meio académico/escolas/salas de aula/educadores», o que isso realmente significa é que o seu conjunto de treino contém apenas textos académicos.
Por outro lado, criámos o Pangram para tirar partido da lição amarga: que os algoritmos de aprendizagem gerais, treinados com grandes volumes de dados provenientes de uma ampla variedade de fontes, são mais eficazes do que modelos específicos treinados com dados específicos de um domínio.
Isso significa que treinamos o nosso detetor de IA com uma grande variedade de textos: criativos, técnicos, científicos, enciclopédicos, críticas, sites, publicações em blogs... a lista é interminável. A razão para isso é semelhante a uma educação liberal abrangente: a exposição a muitas disciplinas e estilos de escrita ajuda o modelo a compreender e generalizar melhor quando encontra novos casos. Seguindo a tendência mais ampla no treinamento de IA, o ChatGPT e outros grandes modelos de linguagem não são treinados com dados específicos para casos de uso particulares, mas sim com dados de texto gerais em grande escala, para que possam ter inteligência geral: acreditamos na mesma estratégia para treinar detectores de IA que sejam robustos para todos os diferentes tipos gerais de texto que um LLM pode produzir.
Escrevemos extensivamente sobre o nosso algoritmo de aprendizagem ativa, que aproveita uma técnica chamada mineração negativa rígida, e acreditamos que essa seja a principal razão pela qual conseguimos reduzir a nossa taxa de falsos positivos para quase zero.
Essencialmente, a razão pela qual isso funciona é porque a maioria dos exemplos na prática são «exemplos fáceis» — uma vez que o modelo aprende os padrões básicos do que é humano e do que é IA, é muito fácil distinguir qual é qual para a grande maioria do conjunto de dados. No entanto, isso só leva a uma precisão de cerca de 99%. Para alcançar os últimos dois dígitos de precisão, precisamos encontrar os casos mais difíceis para treinar o modelo: podemos pensar nesses casos como aqueles em que um humano decide escrever de maneira muito semelhante a um modelo de linguagem de IA, mas, na verdade, está apenas escrevendo assim por coincidência. Para encontrar esses negativos difíceis, realizamos uma pesquisa em grande escala em conjuntos de dados da Internet, como os usados para treinar LLMs, e, em seguida, realizamos um espelhamento sintético para gerar exemplos de IA com som semelhante. Mais detalhes podem ser encontrados na nossa página de funcionamento.
Formulamos o nosso objetivo de otimização para que o modelo também priorize falsos positivos em detrimento de falsos negativos durante o próprio procedimento de treino. Quando o modelo erra um documento humano, ele é «penalizado» por um fator muito mais pesado do que se errasse um documento de IA. Isso força o modelo a ser conservador e apenas prever que um documento é de IA se tiver certeza absoluta.
Isso está relacionado à seleção do limiar, conforme descrito em RAID. Selecionamos o nosso limiar com base na avaliação de milhões de documentos nos nossos conjuntos de avaliação para equilibrar adequadamente as taxas de falsos positivos e falsos negativos. Com a nossa seleção de limiar, tentamos encontrar um equilíbrio entre manter a taxa de falsos negativos razoável e não comprometer os nossos falsos positivos.
Adoramos trabalhar com investigadores para melhorar a precisão geral do nosso software e somos apaixonados por benchmarking aberto e transparência na deteção de IA. Para consultas sobre como trabalhar connosco, colaborar connosco ou outras questões sobre a precisão do Pangram, entre em contacto com info@pangram.com.
