Anunciamos uma nova parceria com a Proofig! Saiba mais

Análise aprofundada das avaliações do Yelp

Bradley Emi

10 de novembro de 2023

NOTA: Mudámos o nosso nome para Pangram Labs! Consulte a publicação no nosso blogue para obter mais detalhes.

Na Checkfor.ai, esforçamo-nos por ser o melhor detetor de texto com IA da sua classe, a fim de promover a nossa missão de proteger a Internet da poluição gerada por IA de baixa qualidade. Uma das áreas mais importantes a defender são as plataformas de avaliação de utilizadores.

As avaliações falsas online acabam prejudicando tanto as empresas quanto os consumidores, e o ChatGPT só tornou ainda mais fácil cometer fraudes em grande escala.

Avaliação gerada pelo ChatGPT no Yelp

Manter a confiança dos utilizadores nas avaliações online é uma parte importante da nossa missão na Checkfor.ai para proteger a autenticidade do conteúdo gerado por humanos online.

Sobre mim

O meu nome é Bradley Emi e sou o diretor técnico da Checkfor.ai. Trabalhei como investigador de IA em Stanford, lancei modelos de produção como cientista de ML na equipa do Tesla Autopilot e liderei uma equipa de investigação que criou uma plataforma para projetar medicamentos com grandes redes neurais na Absci. Em carros autônomos e descoberta de medicamentos, 99% de precisão simplesmente não é bom o suficiente. 99% de precisão pode significar que 1 em cada 100 pedestres é atropelado por um veículo autônomo ou que 1 em cada 100 pacientes sofre efeitos colaterais com risco de vida devido a um medicamento mal projetado.

Embora detectar texto gerado por IA não seja necessariamente uma questão de vida ou morte, queremos projetar modelos e sistemas de software aqui na Checkfor.ai que atendam aos mesmos padrões de qualidade. O nosso detector deve resistir a ataques adversários, como paráfrase, engenharia avançada de prompts e ferramentas de evasão de detecção, como o undetectable.ai. Estamos empenhados em resolver este problema (por exemplo, não apenas atingir 99%) e, por isso, uma das principais prioridades da nossa equipa de engenharia é desenvolver uma plataforma de avaliação extremamente robusta.

Filosofia de avaliação: conjuntos de testes são testes unitários

Uma empresa de cibersegurança Software 1.0 nunca lançaria um produto sem testes unitários. Como empresa Software 2.0, precisamos do equivalente a testes unitários, exceto que eles precisam testar modelos grandes com milhões ou até bilhões de parâmetros, que podem se comportar estocasticamente e devem funcionar corretamente, cobrindo uma ampla distribuição de casos extremos. Não podemos alcançar «99% de precisão no conjunto de testes» e dar o assunto por encerrado: precisamos de avaliações que testem especificamente os tipos de exemplos que encontraremos no mundo real.

Um bom conjunto de testes responde a perguntas específicas e minimiza o número de variáveis de confusão.

Exemplos de perguntas de teste direcionadas e conjuntos de testes correspondentes incluem:

Qual é o desempenho do nosso modelo nas avaliações do Yelp? Conjunto de teste com mil avaliações reais do Yelp e mil avaliações do Yelp geradas por IA.
Qual é o desempenho do nosso modelo em textos parafraseados? Conjunto de testes com centenas de ensaios reais de estudantes, centenas de ensaios de IA e esses mesmos ensaios parafraseados através do QuillBot ou Undetectable.AI.

Existem várias razões pelas quais não se pode simplesmente combinar tudo no seu conjunto de testes e apresentar um número.

Existem demasiadas variáveis de confusão — não sabemos se o teste foi aprovado ou reprovado devido à distribuição dos dados ou ao modelo.
Qualquer pessoa pode inflar artificialmente o seu número de precisão simplesmente inundando o conjunto de testes com exemplos fáceis.
Sem uma explicação aberta e reproduzível de como o conjunto de testes foi criado de forma imparcial, não podemos saber se alguém simplesmente selecionou exemplos em que o seu modelo é bem-sucedido e a linha de base falha.

É por isso que estudos comparativos como esses falham completamente o objetivo. Eles são difusos e não testam comportamentos específicos que queremos que o modelo execute. Conjuntos de testes tendenciosos mostram o modelo quando ele apresenta seu melhor desempenho, e não quando ele enfrenta exemplos do mundo real.

Uma referência imparcial do Yelp

Um exemplo de aplicação real da deteção de texto por IA é a deteção de avaliações geradas por IA no Yelp. O Yelp está comprometido com a moderação rigorosa da sua plataforma de avaliações e, se você acessar o Relatório de Confiança e Segurança de 2022, verá que o Yelp se preocupa profundamente com o combate a avaliações fraudulentas, remuneradas, incentivadas ou desonestas.

Felizmente, o Yelp também lançou um excelente conjunto de dados de código aberto. Selecionamos aleatoriamente 1000 avaliações desse conjunto de dados e geramos 1000 avaliações sintéticas a partir do ChatGPT, o LLM mais utilizado.

É importante observar que as avaliações do ChatGPT são para empresas reais do Yelp a partir do seu conjunto de dados Kaggle: dessa forma, o modelo não pode trapacear ajustando-se excessivamente a detalhes como a diferença na distribuição das empresas. Durante a avaliação, testamos se o modelo realmente aprendeu a usar os recursos corretos no texto para diferenciar o real do falso.

Usamos este conjunto de dados para descobrir quais dos modelos de detecção de IA realmente conseguem diferenciar as avaliações geradas pelo ChatGPT das reais!

Precisão dos modelos

A nossa métrica mais simples é a precisão: quantos exemplos cada modelo classificou corretamente?

Checkfor.ai: 99,85% (1997/2000)
Originality.AI: 96,2% (1738/1806) (nota: Originality.AI recusa-se a classificar documentos com menos de 50 palavras).
GPTZero: 90,8% (1815/2000)

Embora uma diferença de 99,85% contra 96% possa não parecer inicialmente uma grande diferença, quando consideramos a taxa de erro, podemos colocar esses números num contexto melhor.

Espera-se que o Checkfor.ai falhe apenas uma vez em cada 666 consultas, enquanto o Originality.AI falha uma vez em cada 26 consultas e o GPTZero falha uma vez em cada 11 consultas. Isso significa que a nossa taxa de erro é mais de 25 vezes melhor do que a do Originality.AI e 60 vezes melhor do que a do GPTZero.

Falsos positivos e falsos negativos

Para analisar os falsos positivos e os falsos negativos (na linguagem da aprendizagem automática, consideraríamos as estatísticas muito semelhantes de precisão e recuperação), podemos analisar a matriz de confusão – quais são as taxas relativas de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos?

Over all 2,000 examples, Checkfor.ai produces 0 false positives and 3 false negatives, exhibiting high precision and high recall. While admirably, GPTZero does not often predict false positives, with only 2 false positives, it comes at the expense of predicting 183 false negatives– an incredibly high false negative rate! We’d call this a model that exhibits high precision but low recall. Finally, Originality.AI predicts 60 false positives and 8 false negatives– and it refuses to predict a likelihood on short reviews (<50 words) — which are the hardest cases and most likely to be false positives. This high false positive rate means that this model is low precision, high recall.

Embora na deteção de texto por IA seja mais importante uma baixa taxa de falsos positivos (não queremos acusar falsamente seres humanos reais de plagiar o ChatGPT), também é necessária uma baixa taxa de falsos negativos – não podemos permitir que mais de 10 a 20% do conteúdo gerado por IA passe despercebido.

Confiança do modelo

Em última análise, gostaríamos que o nosso modelo expressasse alta confiança quando estiver claro que o texto é humano ou escrito pelo ChatGPT.

Seguindo uma estratégia de visualização semelhante à do excelente artigo académico DetectGPT, de Mitchell et. al., traçamos os histogramas das previsões do modelo para as avaliações geradas por IA e as avaliações reais para todos os três modelos. Como todos os três modelos têm uma precisão superior a 90%, uma escala logarítmica no eixo y é a mais útil para visualizar as características da confiança de cada modelo.

Neste gráfico, o eixo x representa a probabilidade de o modelo prever que a revisão inserida foi gerada por IA. O eixo y representa a frequência com que o modelo prevê essa probabilidade específica para texto real (barras azuis) ou gerado por IA (barras vermelhas). Ao analisar essas previsões «suaves», em vez de apenas um sim ou um não, vemos que o Checkfor.ai é muito melhor em traçar um limite de decisão claro e fazer previsões mais confiáveis do que o GPTZero ou o Originality.AI.

O GPTZero tende a prever demasiados exemplos na faixa de probabilidade de 0,4 a 0,6, com uma moda em torno de 0,5. Por outro lado, o problema de falsos positivos do Originality.AI torna-se ainda mais visível ao examinar as previsões suaves. Muitas avaliações reais estão muito próximas de serem previstas como geradas por IA, mesmo que não ultrapassem o limite de 0,5. Isso torna difícil para um utilizador confiar que o modelo pode prever com fiabilidade textos gerados por IA, uma vez que pequenas perturbações na avaliação podem permitir que um adversário contorne o detetor, editando iterativamente a avaliação até que ela fique abaixo do limite de deteção.

O nosso modelo, por outro lado, é geralmente muito decisivo. Normalmente, somos capazes de tomar decisões com confiança. Para os leitores com conhecimentos aprofundados em aprendizagem profunda ou teoria da informação, temos a menor entropia cruzada/divergência KL entre a distribuição real e a distribuição prevista.

Há um valor claro em prever texto real como real com alta confiança (veja esta figura humorística do Twitter). Embora este educador tenha claramente interpretado erroneamente a probabilidade da IA como uma quantidade de texto que foi escrito pela IA, quando os detetores não têm certeza se o texto real é realmente real, isso deixa margem para interpretações erradas.

https://twitter.com/rustykitty_/status/1709316764868153537

Dos três erros previstos pelo Checkfor.ai, infelizmente, dois deles são bastante confiáveis. O nosso detetor não é perfeito e estamos a trabalhar ativamente na calibração do modelo para evitar previsões erradas tão confiáveis.

Conclusão

Estamos disponibilizando em código aberto os conjuntos de dados usados para esta avaliação de avaliações reais e falsas do Yelp, para que modelos futuros possam usar este importante parâmetro de referência para testar a precisão dos seus detectores.

As nossas principais conclusões são:

O Checkfor.ai apresenta uma baixa taxa de falsos positivos e uma baixa taxa de falsos negativos. O Checkfor.ai é capaz de distinguir entre avaliações reais e avaliações geradas por IA não apenas com alta precisão, mas também com alta confiança. Publicaremos mais posts desse tipo no futuro e compartilharemos publicamente as nossas avaliações honestas sobre o nosso modelo à medida que aprendermos mais. Fique atento e diga-nos o que pensa!

Inscreva-se na nossa newsletter

Partilhamos atualizações mensais sobre a nossa investigação em deteção de IA.

Inscreva-se em
para receber as nossas atualizações

Mantenha-se informado com as nossas últimas notícias e ofertas.

soc2

SOC2 TIPO 2

Verificado pela AssuranceLab

© 2025 Pangram. Todos os direitos reservados.

info@pangram.com

Junte-se à nossa comunidade

© 2025 Pangram. Todos os direitos reservados.