Se estiver a enfrentar dificuldades técnicas, estamos a tratar do assunto. O Pangram deverá voltar a funcionar em breve.
*Nota: O nosso novo modelo, o Pangram 3.0, baseia-se no nosso estudo publicado: EditLens: Quantificando a extensão da edição por IA no texto.
A rápida adoção de grandes modelos de linguagem (LLMs), como o ChatGPT, o Claude e o Gemini, transformou a forma como escrevemos, revemos e interagimos com o texto. Um estudo recente da OpenAI revelou que dois terços de todas as consultas relacionadas com a escrita dirigidas ao ChatGPT solicitam ao modelo que modifique o texto fornecido pelo utilizador, em vez de gerar texto a partir do zero. Os utilizadores pedem cada vez mais aos modelos que melhorem a gramática, reestruturem argumentos ou alterem o tom, partindo de um rascunho escrito por um ser humano.
O que significa o aumento de textos redigidos por humanos, mas editados por IA, para as ferramentas de deteção de IA? Muitas das ferramentas existentes foram concebidas para classificar os textos em, no máximo, três categorias: totalmente humano, totalmente gerado por IA ou misto. Este quadro não faz distinção entre um parágrafo com correções gramaticais feitas por um LLM e um parágrafo expandido por um modelo para adicionar detalhes.
Para captar na íntegra o leque de edições realizadas por IA num texto, apresentamos o Pangram 3.0, um modelo concebido para quantificar a magnitude do envolvimento da IA na criação de um texto. Em vez de apresentar uma categorização como «totalmente humano», «totalmente IA» ou «misto», o Pangram gera uma pontuação que corresponde à «intensidade» da intervenção da IA.
O Pangram 3.0 aborda o caso daquilo a que chamaremos de textos de autoria mista homogénea. Vamos analisar a diferença entre autoria mista homogénea e heterogénea.
No caso heterogéneo, a autoria de cada segmento de texto pode ser atribuída diretamente a um ser humano ou à IA. No exemplo abaixo, um ser humano começa a escrever uma crítica e, em seguida, pede ao ChatGPT para a completar. Em casos como este, existem uma ou mais fronteiras entre os segmentos humanos e os da IA. É possível rotular cada frase ou mesmo cada palavra de acordo com quem a produziu: humano ou IA. A deteção de texto misto heterogéneo (também chamada de deteção de texto de IA de alta granularidade) já foi estudada anteriormente por Kushnareva et al. (2024), Wang et al. (2023) e Lei et al. (2025).
No caso homogéneo, a autoria fica entrelaçada com o processo de edição. Continuando com o nosso exemplo da crítica a um restaurante, seria produzido um texto misto homogéneo se um humano escrevesse uma breve crítica, mas pedisse ao ChatGPT para lhe acrescentar detalhes. Neste caso, é impossível separar as palavras escritas pelo humano das palavras escritas pela IA: a IA reformulou o texto humano com novas palavras, mas o significado e as ideias subjacentes ao texto provêm diretamente do rascunho humano (Considere um caso em que um autor humano parafraseia outro sem citação — este é um caso clássico de plágio!).
Figura 2: Exemplo de texto com autoria mista heterogénea (humana e IA) (à esquerda) e de texto com autoria mista homogénea (à direita)
Cada um dos três textos editados na Figura 1 é um exemplo do caso de autoria mista homogénea. A partir destes três exemplos, podemos ver que existe uma diferença clara entre o texto produzido pela instrução «Corrija quaisquer erros» e o texto produzido pela instrução «Torne-o mais descritivo». Esta diferença é particularmente marcante quando comparamos os textos resultantes com o texto original escrito por humanos, mas com o Pangram 3.0, damos um passo em direção à quantificação dessa diferença quando dispomos apenas do texto editado, para que os utilizadores possam compreender melhor o quão omnipresente a IA está num determinado texto.
Para treinar um modelo capaz de determinar o grau de edição por IA presente num texto, precisámos de criar um conjunto de dados de treino composto por textos editados por IA, rotulados com a quantidade de edição por IA presente em cada texto. Recolhemos amostras de textos originais escritos inteiramente por humanos a partir de conjuntos de dados de código aberto em diferentes domínios: notícias, críticas, artigos educativos na web e sugestões de escrita do Reddit. Em seguida, aplicámos 303 prompts de edição diferentes, como «Torne isto mais descritivo» ou «Pode ajudar a minha redação a obter uma nota melhor?», utilizando 3 LLMs comerciais diferentes: GPT-4.1, Claude Sonnet 4 e Gemini 2.5 Flash. Por fim, gerámos uma versão totalmente gerada por IA (também chamada de «espelho sintético», ver o Relatório Técnico Pangram) de cada texto escrito por humanos. O nosso conjunto de dados final tem 60 mil exemplos de treino, 6 mil de teste e 2,4 mil de validação.
Como temos acesso ao texto-fonte não editado durante a criação do conjunto de dados, conseguimos medir a quantidade de edição por IA presente no texto, comparando o texto-fonte com a sua versão editada por IA. Utilizámos uma métrica de similaridade textual chamada «distância cosseno» para estimar em que medida a IA alterou o texto-fonte escrito por humanos numa escala de 0 a 1, sendo atribuída uma pontuação de 0 aos textos totalmente escritos por humanos e uma pontuação de 1 aos textos totalmente gerados por IA. Para validar se esta pontuação corresponde à forma como os humanos percebem a edição por IA, realizámos um estudo em que contratámos três especialistas com vasta experiência em textos gerados por IA e lhes pedimos que escolhessem qual dos dois textos editados por IA apresentava mais sinais de edição por IA. O nosso estudo revelou que os anotadores concordaram, em geral, com a nossa escolha da métrica de similaridade textual.
Assim que tivemos o nosso conjunto de dados rotulado, chegou a hora de treinar um modelo. O nosso modelo é treinado apenas com os textos editados pela IA, o que reflete a forma como um utilizador utilizaria o Pangram 3.0: um professor interessado em saber quanto de IA o seu aluno utilizou terá apenas o trabalho final do aluno, e não quaisquer rascunhos anteriores. Dado um texto, o nosso modelo é treinado para prever a pontuação de edição da IA que lhe atribuímos na secção anterior. A Figura 3 ilustra as entradas e saídas do nosso modelo, tanto na fase de treino como na fase de teste.
Eis um parágrafo escrito por uma pessoa sobre o autor Kazuo Ishiguro:
Ler as obras do autor britânico Kazuo Ishiguro é sentir frustração a vários níveis. A genialidade da escrita frustrante de Ishiguro reside no facto de, independentemente do grau de envolvimento emocional do leitor com as personagens e o enredo, a frustração ser constante. Ao nível da própria linguagem, o leitor depara-se com repetições, prolixidade e uma generosa pitada de adjetivos qualificativos. Ishiguro condicionou-me a ter uma reação física adversa sempre que uma das suas personagens diz algo do tipo «Vou ser breve». Os narradores são todos empregados, mas nenhum é um contador de histórias profissional. A informação é divulgada lentamente, de forma imprecisa e fora da ordem cronológica. Isto priva o leitor de factos concretos que facilitam a compreensão do enredo.
Eis como o Pangram 3.0 caracteriza as versões editadas por IA deste parágrafo do ChatGPT após aplicarmos diferentes prompts:
| Prompt | Pontuação da assistência por IA (EditLens) | Resultado do Pangram 3.0 |
|---|---|---|
| Arranja isto, estou a tentar enviar o meu artigo para uma revista literária | 0.52 | Ver texto e resultado ligeiramente editado |
| Tornar a língua mais viva | 0.79 | Ver texto e resultado ligeiramente editado |
| Reescreva isto ao estilo de Ishiguro | 0.89 | Ver texto e resultado totalmente gerado por IA |
O Grammarly é um assistente de escrita baseado em IA e por assinatura que permite aos utilizadores editar textos diretamente utilizando modelos de linguagem de grande escala (LLMs) no seu próprio processador de texto. Recolhemos um conjunto de dados em que utilizámos o Grammarly para aplicar 9 das sugestões de edição predefinidas a 197 textos escritos por humanos. Estas incluíam sugestões como «Simplifique», «Faça soar mais fluente» e «Torne mais descritivo». Em seguida, classificámos todos os textos editados utilizando o Pangram 3.0. Na Figura 4, apresentamos as distribuições das pontuações da assistência de IA agrupadas por sugestão de edição. Podemos ver que, talvez de forma contraintuitiva, o Pangram 3.0 considera «Corrigir quaisquer erros» como as edições mais menores, enquanto «Resuma» e «Torne mais detalhado» são consideradas edições muito mais invasivas.
Figura 4: Distribuição das pontuações do Pangram 3.0 (EditLens) num conjunto de dados recolhido a partir do Grammarly. As pontuações estão agrupadas de acordo com a correção que lhes foi aplicada. Todas as correções são opções predefinidas disponíveis no processador de texto do Grammarly.
Realizámos uma experiência em que aplicámos 5 edições de LLM ao mesmo texto e voltámos a avaliar o texto com o Pangram 3.0 após cada edição. Na Figura 5, podemos ver que, em geral, a pontuação da assistência de IA (EditLens) aumenta à medida que aplicamos cada edição sucessiva.
Figura 5: Pontuações do Pangram 3.0 após cada uma das 5 edições progressivas realizadas pela IA no mesmo documento.
Em novembro, investigadores da área da IA manifestaram a sua preocupação com a elevada percentagem de trabalhos e revisões por pares suspeitos de terem sido gerados por IA na Conferência Internacional sobre Representações de Aprendizagem (ICLR), uma das principais conferências sobre IA e aprendizagem automática. O professor Graham Neubig, da Universidade Carnegie Mellon, ofereceu uma recompensa a quem realizasse uma análise de deteção de IA nos trabalhos e revisões da ICLR deste ano, e nós, na Pangram, aceitámos com todo o prazer.
Como parte desta análise, executámos o Pangram 3.0 em todas as revisões por pares que foram submetidas ao ICLR neste ciclo de revisão, bem como nas revisões submetidas em 2022, para verificar a nossa taxa de falsos positivos (FPR). Nas revisões de 2022, o Pangram 3.0 apresentou uma FPR de cerca de 1 em 1.000 em «Ligeiramente editado» vs. «Totalmente humano», uma FPR de 1 em 5.000 em «Moderadamente editado» vs. «Totalmente humano» e uma FPR de 1 em 10.000 em «Fortemente editado» vs. «Totalmente humano». Não encontrámos confusões entre «Totalmente gerado por IA» e «Totalmente humano». Nas revisões deste ano, o Pangram 3.0 constatou que mais de metade das revisões continham alguma forma de assistência por IA. A Figura 6 mostra a distribuição das pontuações do Pangram 3.0 em todas as 2026 revisões da ICLR.
Figura 6: Distribuição das previsões do Pangram 3.0 nas revisões da ICLR de 2026
Para uma análise mais aprofundada da nossa metodologia e dos nossos resultados, consulte a publicação no blogue que escrevemos sobre a nossa análise.
Publicámos os resultados da nossa análise e as pontuações do Pangram 3.0 para todas as avaliações, o que permitiu aos avaliadores verificar como o Pangram 3.0 pontuou as avaliações que escreveram. Consequentemente, conseguimos obter feedback empírico sobre o desempenho do Pangram 3.0 em textos reais.
Um tema recorrente nas respostas no X à nossa análise foi a questão de saber como o AI Assistance avalia textos escritos por falantes não nativos de inglês que, posteriormente, utilizam modelos de linguagem de grande escala (LLMs) para traduzir ou aperfeiçoar os textos por eles redigidos. A seguir, partilhamos algumas respostas dos revisores, que, em geral, concordaram com a caracterização que o Pangram fez das suas avaliações:
Verifiquei as minhas avaliações, que foram aperfeiçoadas em inglês por modelos de linguagem grande (LLMs), e marquei todas elas como «sem IA detetada» / «totalmente escritas por humanos»
— Ana Marasović (@anmarasovic) 15 de novembro de 2025
Verifico as minhas revisões. O resultado é: 2 com edição moderada por IA, 2 com edição intensa e 1 com edição leve. Isto porque escrevi a revisão em chinês e o GPT ajudou-me a traduzi-la para inglês. Não é um resultado surpreendente. Mas acho que sou um revisor responsável :) https://t.co/1QoRvF6q2y
— Rising Zhang (张瑞星) (@xing_rui12683) 16 de novembro de 2025
Agora confiamos mais na IA para detetar conteúdos gerados por IA do que no próprio conteúdo gerado por IA, haha.
— Shuaichen Chang (@ShuaichenChang) 17 de novembro de 2025
Para que fique claro, tenho todo o respeito pelas pessoas que se empenharam para tornar esta análise possível.
Pela minha própria experiência: tenho uma submissão em que todas as quatro avaliações… https://t.co/qzjxeG48u2
Estamos entusiasmados por partilhar esta atualização do produto convosco. Para mais detalhes técnicos sobre a deteção de assistência por IA do Pangram 3.0 (EditLens), consultem o nosso artigo de investigação aqui: https://arxiv.org/abs/2510.03154
