Anunciamos uma nova parceria com a Proofig! Saiba mais
Os autores estão a usar LLMs para escrever artigos de investigação sobre IA? Os revisores estão a terceirizar a redação das suas revisões desses artigos para ferramentas de IA generativa? Para descobrir, analisámos todos os 19.000 artigos e 70.000 revisões da Conferência Internacional sobre Representações de Aprendizagem, um dos mais importantes e prestigiados fóruns de publicação de investigação em IA. Graças ao OpenReview e ao processo de revisão pública da ICLR, todos os artigos e suas revisões foram disponibilizados online, e esse processo de revisão aberta possibilitou esta análise.
Disponibilizámos todos os resultados publicamente em iclr.pangram.com.
Bem, para começar, ofereceram-nos uma recompensa!
Tweet de Graham Neubig oferecendo uma recompensa pela análise das submissões ao ICLR
Falando sério, muitos autores e revisores da ICLR têm notado alguns casos de má conduta científica flagrante relacionada à IA, como um artigo gerado por LLM com referências completamente alucinadas e muitos autores alegando ter recebido revisões totalmente geradas por IA.
Um autor chegou a relatar que um revisor fez 40 perguntas geradas por IA na sua revisão por pares!
Queríamos avaliar a dimensão deste problema em geral: esses exemplos de mau comportamento são incidentes isolados ou indicam um padrão mais amplo no local de trabalho? Por isso aceitámos a oferta do Graham!
A ICLR tem uma política muito clara e descritiva sobre o que é permitido e não permitido em termos de uso de LLM em artigos e revisões.
Política 1. Qualquer utilização de um LLM deve ser divulgada, seguindo as políticas do Código de Ética que determinam que «todas as contribuições para a investigação devem ser reconhecidas» e que os colaboradores «devem esperar receber crédito pelo seu trabalho».
Política 2. Os autores e revisores da ICLR são os responsáveis finais pelas suas contribuições, seguindo a política do Código de Ética que determina que «os investigadores não devem deliberadamente fazer afirmações falsas ou enganosas, inventar ou falsificar dados, ou deturpar resultados».
O ICLR também possui diretrizes que os autores devem seguir ao usar LLMs em seus artigos e revisões. Resumindo:
Portanto, não realizamos este estudo com o objetivo de denunciar infratores individuais, já que os LLMs são, na verdade, permitidos tanto na submissão de artigos quanto no processo de revisão por pares. Em vez disso, desejamos chamar a atenção para a quantidade de uso de IA nos artigos e na revisão por pares, e destacar que as revisões totalmente geradas por IA (que, de fato, provavelmente violam o Código de Ética) são um problema muito mais difundido do que muitos imaginam.
Primeiro, descarregámos todos os PDFs das submissões do ICLR usando a API OpenReview. Também descarregámos todas as notas, o que nos permitiu extrair a revisão.
Descobrimos que usar um analisador de PDF comum, como o PyMuPDF, era insuficiente para os artigos da ICLR, pois os números das linhas, imagens e tabelas muitas vezes não eram tratados corretamente. Portanto, para extrair o texto principal do artigo, usamos o Mistral OCR para analisar o texto principal do artigo do PDF como Markdown. Como a IA também tende a preferir a saída em Markdown, para mitigar os falsos positivos provenientes apenas da formatação, reformatamos o Markdown como texto simples.
Em seguida, executámos o classificador de texto estendido do Pangram no texto simples analisado desses PDFs. A versão estendida do classificador primeiro divide o texto em segmentos e executa o modelo de deteção de IA em cada segmento individualmente. O resultado é uma percentagem que mostra quantos segmentos tiveram resultado positivo para texto gerado por IA, de modo que o resultado pode indicar que um artigo foi totalmente escrito por humanos, totalmente gerado por IA ou misto, com alguns segmentos tendo resultado positivo e outros negativo.
Também verificámos as revisões por pares para IA usando o nosso novo modelo EditLens. O EditLens é capaz não só de detetar a presença de IA, mas também de descrever o grau de envolvimento da IA no processo de edição. O EditLens pode prever que um texto se enquadra numa de cinco categorias:
O EditLens está atualmente disponível apenas para clientes em nossa versão beta privada, mas será disponibilizado ao público no início de dezembro. Teremos mais a dizer sobre este modelo nas próximas semanas, mas na nossa pré-impressão de pesquisa, descrevemos o seu desempenho como o mais avançado na geração de texto em coautoria e, em benchmarks internos, ele tem uma precisão semelhante ao nosso modelo atual quando avaliado como um classificador binário e uma taxa de falsos positivos excepcionalmente baixa de 1 em 10.000 em textos totalmente escritos por humanos.
Na nossa análise anterior de artigos de conferências sobre IA, descobrimos que o Pangram tem uma taxa de falsos positivos de 0% em todos os artigos ICLR e NeurIPS disponíveis publicados antes de 2022. Embora alguns desses artigos estejam realmente no conjunto de treino, nem todos estão; por isso, acreditamos que o verdadeiro desempenho do Pangram no conjunto de teste é, na verdade, muito próximo de 0%.
E quanto às revisões por pares? Realizámos uma experiência de controlo negativo adicional, na qual aplicámos o modelo EditLens mais recente a todas as 2022 revisões por pares. Encontramos uma taxa de erro de cerca de 1 em 1000 na edição leve em comparação com a edição totalmente humana, uma taxa de erro de 1 em 5000 na edição média em comparação com a edição totalmente humana e uma taxa de erro de 1 em 10 000 na edição pesada em comparação com a edição totalmente humana. Não encontramos confusões entre a edição totalmente gerada por IA e a edição totalmente humana.
Distribuição das previsões do EditLens nas revisões do ICLR 2022 (controlo negativo)
Para a experiência em si, executámos o Pangram em todos os artigos e revisões por pares. Aqui estão as principais conclusões:
Descobrimos que 21%, ou 15.899 avaliações, foram totalmente geradas por IA. Descobrimos que mais da metade das avaliações tinham algum tipo de envolvimento de IA, seja edição, assistência ou geração completa por IA.
Distribuição das previsões do EditLens nas revisões do ICLR 2026
Por outro lado, os artigos submetidos ainda são, em sua maioria, escritos por humanos (61% foram escritos principalmente por humanos). No entanto, encontramos várias centenas de artigos totalmente gerados por IA, embora pareçam ser casos isolados, e 9% dos artigos submetidos tinham mais de 50% de conteúdo gerado por IA. Como ressalva, alguns artigos totalmente gerados por IA já haviam sido rejeitados e removidos do OpenReview antes de termos a oportunidade de realizar a análise.
Distribuição do conteúdo de IA nas submissões de artigos para a ICLR 2026
Encontrámos algumas tendências interessantes nos resultados que esclarecem como a IA está a ser utilizada tanto na submissão de artigos como nas revisões por pares, e quais são os efeitos a jusante dessa utilização no próprio processo de revisão.
Ao contrário de um estudo anterior que mostrou que os LLMs frequentemente preferem os seus próprios resultados à escrita humana quando usados como juízes, descobrimos o oposto: quanto mais texto gerado por IA está presente numa submissão, piores são as avaliações.
Pontuação média das avaliações por conteúdo de IA nos artigos
Isso pode ocorrer por vários motivos. Um deles é que, quanto mais IA é utilizada num artigo, menos bem pensado e executado ele é como um todo. É possível que, quando a IA é utilizada na escrita científica, ela seja mais frequentemente utilizada para descarregar e simplificar, em vez de ser utilizada como um auxiliar complementar. Além disso, artigos totalmente gerados por IA que recebem pontuações mais baixas indicam potencialmente que a investigação gerada por IA ainda é de baixa qualidade e não representa (ainda) uma contribuição real para a ciência.
Pontuação média das avaliações por nível de envolvimento da IA
Constatamos que quanto mais IA está presente numa revisão, maior é a pontuação. Isso é problemático: significa que, em vez de reformular a opinião do revisor usando a IA como estrutura (se fosse esse o caso, esperaríamos que a pontuação média fosse a mesma para revisões com IA e revisões humanas), os revisores estão, na verdade, a terceirizar o julgamento do artigo para a IA também. Apresentar a opinião do LLM como a opinião real do revisor é uma clara violação do Código de Ética. Sabemos que a IA tende a ser bajuladora, o que significa que diz coisas que as pessoas querem ouvir e que são agradáveis, em vez de dar uma opinião imparcial: uma propriedade completamente indesejável quando aplicada à revisão por pares! Isso poderia explicar o viés positivo nas pontuações entre as revisões de IA.
Comprimento médio da avaliação por nível de envolvimento da IA
Anteriormente, uma avaliação mais longa significava que a avaliação era bem pensada e de maior qualidade, mas na era dos LLMs, muitas vezes pode significar o contrário. As avaliações geradas por IA são mais longas e têm muito «conteúdo de preenchimento». De acordo com Shaib et. al., num artigo de investigação intitulado Measuring AI Slop in Text, uma propriedade do «slop» da IA é que tem baixa densidade de informação, o que significa que a IA usa muitas palavras para dizer muito pouco em termos de conteúdo real.
Consideramos que isso também se aplica às revisões LLM: a IA utiliza muitas palavras, mas não fornece um feedback com grande densidade de informação. Argumentamos que isso é problemático porque os autores têm de perder tempo analisando uma revisão longa e respondendo a perguntas vazias que, na verdade, não contêm muito feedback útil. Também vale a pena mencionar que a maioria dos autores provavelmente pedirá a um grande modelo de linguagem uma revisão de sua submissão antes de realmente enviá-la. Nesses casos, o feedback de uma revisão LLM é em grande parte redundante e inútil, porque o autor já viu as críticas óbvias que um LLM fará.
Embora a taxa de falsos positivos do Pangram seja extremamente baixa, ela não é zero e, portanto, temos a responsabilidade de quantificar a confiabilidade da ferramenta antes de recomendá-la para tomar decisões discretas sobre o destino de um artigo (como uma decisão de rejeição imediata) ou punir um revisor. Medimos diretamente a taxa de falsos positivos no domínio usando os estudos de controlo negativo descritos acima, mas e quanto a outros conjuntos de dados, benchmarks e textos em geral?
Documentámos a taxa de falsos positivos do Pangram nesta publicação anterior do blogue.
A precisão do Pangram também foi validada por vários estudos independentes, incluindo estudos recentes da UChicago Booth e da American Association for Cancer Research.
Para contextualizar estes números, a taxa de falsos positivos do Pangram é comparável à taxa de falsos positivos dos testes de ADN ou dos testes de drogas: um falso positivo verdadeiro, em que um texto totalmente gerado por IA é confundido com um texto totalmente humano, não é nulo, mas é extremamente raro.
Se é um autor e suspeita que recebeu uma crítica gerada por IA, existem vários sinais reveladores que pode procurar. Embora o Pangram consiga detetar texto gerado por IA, também é possível identificar os sinais de críticas de IA a olho nu.
Elaborámos um guia geral para detectar padrões de escrita de IA a olho nu, mas notamos alguns sinais e marcadores adicionais presentes especificamente nas revisões por pares de IA.
Algumas das «pistas» que observamos nas revisões por pares de IA:
Pontos fortes: Formulação clara do problema: O artigo aborda um problema real — os sistemas OCR baseados em VLM apresentam alucinações em documentos degradados sem sinalizar incerteza, o que é pior do que os sistemas OCR clássicos que produzem resultados obviamente distorcidos. A motivação é bem articulada. Metodologia sistemática: A abordagem de treinamento em duas etapas (pseudo-rotulado cold start + GRPO) é razoável e bem descrita. O design de recompensa multiobjetivo com salvaguardas contra hacking de recompensa (especialmente o fator de amortecimento de incompatibilidade de comprimento η) demonstra uma engenharia cuidadosa.
Questões: 1. Generalização para degradações reais: Os autores podem avaliar documentos degradados do mundo real (por exemplo, conjuntos de dados de documentos históricos) para demonstrar que a abordagem se generaliza para além do pipeline de degradação sintética específico? 2. Comparação com os sistemas MinerU: MinerU e MinerU2.5 [2,3] representam avanços recentes na análise de documentos. Como o método proposto se compara a esses sistemas no Blur-OCR? Se esses sistemas não podem produzir estimativas de incerteza, eles podem ser combinados com a abordagem de marcação proposta?
Críticas superficiais em vez de análises genuínas: as revisões geradas por IA tendem a concentrar-se em questões superficiais, em vez de preocupações reais com a integridade científica do artigo. As críticas típicas da IA podem incluir a necessidade de mais ablações muito semelhantes às apresentadas, o pedido de aumento do tamanho do conjunto de testes ou do número de controlos, ou o pedido de mais esclarecimentos ou exemplos.
Dizer muitas palavras que dizem muito pouco: as análises de IA frequentemente apresentam baixa densidade de informação, usando linguagem prolixa para expressar pontos que poderiam ser expressos de forma mais concisa. Essa prolixidade cria trabalho extra para os autores, que precisam analisar análises longas para extrair as críticas substantivas reais.
No início deste ano, investigadores da UNIST, na Coreia, publicaram um documento de posição no qual descrevem algumas das razões para o declínio na qualidade do processo de revisão por pares. À medida que a IA continua a crescer como área de estudo, a pressão sobre os recursos do sistema de revisão por pares começa a mostrar sinais de fragilidade. Simplesmente, há um número limitado de revisores qualificados para o aumento explosivo no número de artigos.
O maior problema com artigos de baixa qualidade gerados por IA é que eles simplesmente desperdiçam tempo e recursos que são limitados. De acordo com a nossa análise, os artigos gerados por IA simplesmente não são tão bons quanto os artigos escritos por humanos e, o que é ainda mais problemático, podem ser gerados de forma barata por revisores desonestos e fábricas de artigos que «espalham e rezam» (enviam um grande volume de submissões para uma conferência na esperança de que uma delas seja aceita por acaso). Se os artigos gerados por IA puderem inundar o sistema de revisão por pares, a qualidade da revisão continuará a diminuir e os revisores ficarão menos motivados por terem de ler artigos de má qualidade em vez de pesquisas reais.
Entender por que as revisões geradas por IA podem ser prejudiciais é um pouco mais complexo. Concordamos com a ICLR que a IA pode ser usada de forma positiva como um recurso auxiliar para ajudar os revisores a articular melhor as suas ideias, especialmente quando o inglês não é a língua nativa do revisor. Além disso, a IA pode frequentemente fornecer feedback genuinamente útil, e muitas vezes é produtivo para os autores simular o processo de revisão por pares com LLMs, para que os LLMs critiquem e apontem falhas na pesquisa, e detectem erros e falhas que o autor pode não ter percebido inicialmente.
No entanto, a questão permanece: se a IA pode gerar feedback útil, por que devemos proibir avaliações totalmente geradas por IA? O economista Alex Imas, da Universidade de Chicago, articula a questão central num tweet recente: a resposta depende se queremos que o julgamento humano esteja envolvido na revisão científica por pares.
Tweet de Alex Imas sobre críticas geradas por IA
Se acreditarmos que os modelos atuais de IA são suficientes para substituir totalmente o julgamento humano, então as conferências deveriam simplesmente automatizar todo o processo de revisão — alimentar os artigos através de um LLM e atribuir pontuações automaticamente. Mas se acreditarmos que o julgamento humano deve continuar a fazer parte do processo, então o conteúdo totalmente gerado por IA deve ser sancionado. Imas identifica dois problemas principais: primeiro, um equilíbrio de agrupamento em que o conteúdo gerado por IA (mais fácil de produzir) rapidamente substituirá o julgamento humano em poucos ciclos de revisão; e, segundo, um problema de verificação em que determinar se uma revisão de IA é realmente boa requer o mesmo esforço que revisar o artigo você mesmo — então, se os LLMs podem gerar revisões melhores do que os humanos, por que não automatizar todo o processo?
Na minha opinião, os julgamentos humanos são complementares, mas fornecem um valor ortogonal às avaliações da IA. Os humanos muitas vezes podem apresentar feedback fora da distribuição que pode não ser imediatamente óbvio. As opiniões de especialistas são mais úteis do que os LLMs porque as suas opiniões são moldadas pela experiência, pelo contexto e por uma perspetiva que é curada e refinada ao longo do tempo. Os LLMs são poderosos, mas as suas avaliações muitas vezes carecem de bom gosto, julgamento e, portanto, parecem «planas».
Talvez as conferências no futuro possam colocar a revisão do SOTA LLM ao lado das revisões humanas para garantir que as revisões humanas não estejam apenas a repetir as críticas «óbvias» que podem ser apontadas por um LLM.
O aumento do conteúdo gerado por IA em revisões acadêmicas por pares representa um desafio crítico para a comunidade científica. A nossa análise mostra que as revisões por pares totalmente geradas por IA representam uma proporção significativa da população geral de revisões do ICLR, e o número de artigos gerados por IA também está a aumentar. No entanto, esses artigos gerados por IA são mais frequentemente de baixa qualidade do que contribuições genuínas para a pesquisa.
Argumentamos que essa tendência é problemática e prejudicial para a ciência, e apelamos às conferências e editoras para que adotem a deteção de IA como uma solução para impedir abusos e preservar a integridade científica.
