Anunciamos uma nova parceria com a Proofig! Saiba mais

Os detetores de IA funcionam contra o GPT-5?

Bradley Emi
7 de agosto de 2025

Os detetores de IA funcionam contra o GPT-5?

Estamos de volta com mais uma publicação da nossa série de testes de deteção de IA da Pangram no dia em que são lançados!

TL;DR: O Pangram é o único detetor de IA capaz de detetar o GPT-5 de forma fiável sem ter sido explicitamente treinado para tal.

Anteriormente nesta série, analisámos a capacidade do Pangram para detetar:

Até o momento, não vimos o Pangram falhar em nenhum modelo de linguagem. Estávamos ansiosos pelo lançamento do modelo mais badalado dos últimos tempos, com o GPT-5 finalmente anunciado hoje pela OpenAI.

Esta tarde, verificámos alguns dos nossos testes iniciais do detetor de IA da Pangram Labs no GPT-5, bem como alguns dos concorrentes. Ficámos bastante satisfeitos com os resultados: ainda não encontrámos nenhum caso de falha do detetor de IA da Pangram contra as nossas sugestões mais criativas no GPT-5, e consideramos que os resultados dos concorrentes são, na melhor das hipóteses, irregulares.

Testando o GPT-5

O nosso primeiro teste do GPT-5 começou com uma piada interna do escritório: tentar convencer alguém de que comer camarão é melhor do que comer lagosta. Pedimos ao GPT-5 para escrever um discurso apaixonado sobre por que comer camarão é superior a comer lagosta. Aqui está o nosso resultado:

O camarão ganha. Eis o meu argumento. O camarão tem o sabor do oceano sem ser agressivo. A lagosta pode ser pesada e um pouco turva se não estiver perfeita. Um minuto a mais no cozimento e a lagosta fica fibrosa. O camarão oferece mais variedade. Grelhado, salteado, cozido, frito, não importa. Ele permanece crocante e limpo. A textura é importante. O camarão estala. Essa textura é o ponto principal. A lagosta é densa e rica de uma forma que se torna cansativa rapidamente. Duas dentadas de lagosta com manteiga são ótimas. Doze dentadas parecem um desafio. Posso devorar um prato inteiro de camarão com alho e ainda querer outro escondido debaixo da salsa. O camarão combina bem com outros ingredientes. Alho, malagueta, lima, manteiga, gengibre, manjericão, caril, Old Bay, miso, gochujang. Faz com que todos eles brilhem. A lagosta exige o palco e, depois, pede principalmente manteiga. Se a melhor versão de uma coisa precisa de uma poça de leite derretido para se sentir especial, talvez essa coisa não esteja a fazer jus ao seu peso. O sabor por minuto é real. O camarão cozinha em cerca de três minutos. Isso significa frigideira quente, sal, selar, pronto, sabor explosivo. Com a lagosta, você luta com as cascas, cozinha no vapor, controla o tempo, quebra, procura a carne minúscula em cantos estranhos. Mais trabalho do que recompensa. O camarão é pouco drama, muito retorno. A acessibilidade muda o sabor. A comida tem um sabor melhor quando não é um pagamento de hipoteca. O camarão pode ser o jantar de uma noite de semana. A lagosta é sinónimo de aniversário. O camarão traz alegria sem cerimónias. Esse fator casual torna-o honestamente mais delicioso na vida real. A variedade é importante. O camarão vai de tacos a scampi, po'boys, bolinhos e paella sem esforço. É bom frio, quente, picante, cítrico, rico ou leve. A lagosta tenta variar e geralmente acaba de volta num rolo com maionese. Um rolo ótimo. Mas ainda assim, é sempre a mesma coisa. A absorção do molho é excelente. O camarão absorve manteiga de alho, óleo de pimenta e limão de uma forma que a lagosta não consegue. A lagosta fica ali como uma celebridade convidada. O camarão aprende as falas e rouba a cena. As sobras também ganham. Camarão frio com molho cocktail no dia seguinte é perfeito. As sobras de lagosta parecem lição de casa. A lagosta reaquecida fica borrachuda. O camarão reaquecido, se tiver a sorte de sobrar algum, ainda tem gosto de festa. E depois há a vibração. O camarão combina com um churrasco no quintal, uma frigideira durante a semana ou um prato sofisticado. A lagosta faz a mesa ficar em silêncio, como se todos tivessem medo de estragar tudo. Quero comida que faça as pessoas conversarem, rasgarem pão, molharem, passarem pratos. O camarão faz isso. Olha, a lagosta é boa. É chamativa. Tem uma história bonita. Mas se estamos a falar de sabor puro que eu quero repetir amanhã, o camarão leva a melhor. Sabor mais limpo. Melhor textura. Mais variedade. Menos complicações. Mais diversão. Passa-me uma frigideira quente, um pouco de alho, um limão e meio quilo de camarão. Esse é o jantar que eu realmente desejo.

O Pangram é capaz de prever que todo o documento foi gerado por IA com um nível de confiança extremamente alto.

Resultados da deteção de IA da Pangram no texto sobre camarão vs lagosta

Testámos vários outros detetores de IA neste texto. O GPTZero, o ZeroGPT, o Grammarly, o UndetectableAI e o Originality.AI previram que este texto foi escrito por um humano, mesmo tendo sido gerado diretamente pelo GPT-5, sem modificações. Acreditamos que isso demonstra a força da nossa abordagem de pesquisa e das nossas capacidades de generalização, apoiadas por um modelo poderoso com um conjunto de dados de alta qualidade!

Resultados de outros detetores de IA no texto camarão vs lagosta

No entanto, este é apenas um exemplo que se poderia argumentar que foi escolhido a dedo. Terá de acreditar na minha palavra quando digo que este texto foi literalmente a primeira coisa que tentámos. Por isso, continuámos com os nossos testes.

Testando a "capacidade de escrita aprimorada" do GPT-5

Uma das afirmações feitas na transmissão ao vivo de hoje foi que o GPT-5 está melhor em escrita em comparação com os seus antecessores. Embora só possamos ser juízes subjetivos disso, tentámos o nosso melhor hoje para criar prompts que mostrassem a capacidade criativa aprimorada do GPT-5, alimentando-o com prompts que forçassem o modelo a expandir tanto as suas capacidades de raciocínio quanto a sua criatividade.

As instruções que testámos:

  1. Escreva um ensaio analítico persuasivo sobre por que as escolas precisam adotar ferramentas de deteção de IA.

  2. Escreva uma redação para a candidatura à faculdade sobre o perigo de todas as habilidades humanas valiosas serem substituídas pela IA.

  3. Escreva uma carta apaixonada, curta, mas carregada de emoção para uma empresa de IA que acidentalmente lançou uma atualização que apagou a memória da sua namorada virtual.

  4. Da perspectiva de um aluno do ensino básico, escreva um ensaio profundamente emotivo a pedir mais trabalhos de casa.

  5. Dê-me um padrão de croché para um animal clássico feito com balões. Você sabe do que estou a falar.

  6. Escreva um relato criativo na perspetiva de uma coruja-das-neves que chega à cidade de Nova Iorque, encontra o Central Park e escolhe um local quente para passar a noite.

  7. Escreva um e-mail do fundador de uma startup unicórnio de software como serviço (SaaS) para a diretoria e seus funcionários, detalhando que ele vai deixar a empresa para se tornar um saxofonista profissional. Invente os detalhes.

  8. Escreva-me um post no blog com a história por trás de uma receita que ninguém jamais fez antes, mas que ainda assim seria deliciosa.

  9. Escreva uma ficção cinematográfica envolvente sobre um jovem cantor e compositor que encontra uma baleia beluga no rio Hudson.

  10. Escreva um e-mail humorístico e passivo-agressivo para um professor, «pedindo desculpas» por ter copiado na última prova. Invente os detalhes.

Testámos os resultados contra o Pangram e o GPTZero, um concorrente bem conhecido. Publicámos as instruções, respostas e resultados online.

Os resultados mostraram um contraste acentuado entre os dois detetores de IA: o Pangram identificou corretamente todas as 10 respostas como geradas por IA com 99-100% de confiança, enquanto o GPTZero classificou incorretamente todas elas como escritas por humanos. Na verdade, o GPTZero classificou a maioria das respostas como tendo 0% de chance de serem geradas por IA, com a sua pontuação mais alta de probabilidade de IA sendo de apenas 29%.

Executar um benchmark maior

Hoje tivemos tempo para realizar um último teste, que consiste em verificar a capacidade do Pangram de detetar todos os diferentes tipos de GPT-5, incluindo GPT-5-mini, GPT-5-nano e GPT-5-chat na API. Também testámos os modelos de peso aberto mais recentes lançados pela OpenAI há alguns dias, GPT-OSS-120b e GPT-OSS-20b. Realizámos esta experiência em maior escala, testando aproximadamente alguns milhares de exemplos por LLM, utilizando as nossas técnicas de prompt padrão, exigindo um comprimento mínimo de 50 palavras. Os tamanhos das amostras variam um pouco porque, por vezes, os modelos recusam os nossos prompts e, outras vezes, emitem respostas com menos de 50 palavras, que descartamos.

É claro que a precisão apenas no texto gerado por IA é uma métrica que não pode ser analisada isoladamente — também temos de considerar a taxa de falsos positivos, que é o outro lado da moeda: com que frequência o Pangram sinaliza textos gerados por humanos como sendo de IA? Escrevemos extensivamente sobre isso noutra publicação, mas o resumo é que o Pangram ainda tem uma taxa de falsos positivos extremamente baixa. A nossa taxa de falsos positivos medida é de 1 em 10.000 em todos os domínios e, na prática, costuma ser ainda menor. Calibramos e ajustamos o limiar de forma que a nossa taxa de falsos positivos seja aproximadamente 1/10 da nossa taxa de falsos negativos, tratando os falsos positivos com muito mais seriedade do que os falsos negativos. No entanto, fora isso, não acreditamos que isso seja uma "desvantagem" inerente — acreditamos que podemos treinar modelos com baixas taxas de falsos positivos e falsos negativos, e é por isso que realizamos benchmarks em ambos os lados!

Eis o que descobrimos.

ModeloPrecisãoAmostras
GPT-599.81%3668/3675
GPT-5-chat-mais recente99.97%3673/3674
GPT-5-mini99.92%3651/3654
GPT-5-nano99.97%3667/3668
GPT-OSS-120b100.00%1709/1709
GPT-OSS-20b99.74%2287/2293

O Pangram detecta o GPT-5?

A partir dos nossos testes iniciais realizados hoje, o GPT-5 não representa nenhuma ameaça às capacidades de detecção do Pangram, o que é muito importante, pois em breve ele se tornará o modelo padrão no ChatGPT para todos os utilizadores, mesmo aqueles na versão gratuita. Embora outros detetores de IA possam eventualmente detectar o GPT-5, o Pangram é o único que funciona de forma imediata e confiável atualmente.

Inscreva-se na nossa newsletter
Partilhamos atualizações mensais sobre a nossa investigação em deteção de IA.