Anunciamos uma nova parceria com a Proofig! Saiba mais
Um gráfico que mostra a percentagem de resumos gerados por IA enviados ao ICLR por ano, revelando uma tendência ascendente desde 2023.
Em fevereiro de 2024, um artigo publicado na revista Frontiers in Cell and Developmental Biology apresentou figuras que eram obviamente geradas por IA. Esse artigo em particular ganhou destaque nas manchetes, pois uma das imagens mostrava um rato com testículos absurdamente grandes e um texto sem sentido que não fazia absolutamente nenhum sentido.
Este é um artigo real publicado na revista Frontiers in Cell and Developmental Biology. As figuras são obviamente geradas por IA. Uma delas mostra um rato com testículos absurdamente grandes. O texto nas figuras é sem sentido. pic.twitter.com/4Acn2YZYwM
— Cliff Swan (@cliff_swan) 15 de fevereiro de 2024
Embora a revisão por pares (em teoria) deva ser suficiente para detectar casos óbvios como este, o que acontece quando o conteúdo real do artigo é gerado por IA? Mesmo os especialistas têm dificuldade em distinguir pesquisas geradas por IA de pesquisas escritas por humanos.
Uma reportagem recente da Nature destaca a crescente preocupação com o conteúdo gerado por IA em artigos académicos. O artigo discute um estudo em que cientistas da computação usaram o Claude 3.5, um dos mais recentes LLMs, para gerar ideias de pesquisa e escrever artigos, que foram então apresentados a revisores científicos. Esses revisores classificaram os artigos em termos de «novidade, entusiasmo, viabilidade e eficácia esperada». Em média, verificou-se que os revisores atribuíram pontuações mais altas aos artigos gerados por IA do que aos artigos escritos por humanos! Isso leva à pergunta: a IA realmente apresenta ideias de pesquisa melhores do que os humanos? Embora seja tentador acreditar que esse seja o caso, dos 4.000 artigos gerados por IA estudados pelos pesquisadores, apenas 200 deles (5%) realmente continham alguma ideia original: a maioria dos artigos simplesmente repetia ideias já existentes no conjunto de treino do LLM.
Em última análise, a investigação gerada por IA prejudica a comunidade ao adicionar ruído e reduzir o sinal no processo de revisão por pares, sem mencionar o desperdício de tempo e esforço dos revisores que se preocupam em manter os padrões de investigação. Além disso, o que é ainda pior é que as pesquisas geradas por IA muitas vezes parecem convincentes, mas, na verdade, o texto produzido por um modelo de linguagem apenas soa fluente e pode estar repleto de erros, alucinações e inconsistências lógicas. A preocupação aqui é que mesmo revisores especializados muitas vezes não conseguem distinguir quando o que estão a ler é uma alucinação do LLM.
Os organizadores das principais conferências sobre aprendizagem automática concordam connosco: não há lugar para textos gerados por LLM na escrita científica. A política oficial da ICML (Conferência Internacional sobre Aprendizagem Automática) é a seguinte:
Esclarecimento sobre a política relativa a modelos linguísticos de grande dimensão
Nós (Presidentes do Programa) incluímos a seguinte declaração na Chamada para Artigos para a ICML representada por 2023:
Os artigos que incluem texto gerado a partir de um modelo de linguagem em grande escala (LLM), como o ChatGPT, são proibidos, a menos que o texto produzido seja apresentado como parte da análise experimental do artigo.
Esta declaração suscitou uma série de perguntas por parte de potenciais autores e levou alguns a contactar-nos proativamente. Agradecemos os vossos comentários e feedback e gostaríamos de esclarecer melhor a intenção por trás desta declaração e como pretendemos implementar esta política para a ICML 2023.
TLDR;
A política do Modelo de Linguagem Grande (LLM) para o ICML 2023 proíbe textos produzidos inteiramente por LLMs (ou seja, «gerados»). Isso não proíbe os autores de usar LLMs para editar ou aperfeiçoar textos escritos por eles. A política do LLM baseia-se, em grande parte, no princípio de ser conservador no que diz respeito à proteção contra potenciais problemas do uso de LLMs, incluindo plágio.
Apesar deste aviso, constatamos que um número significativo e crescente de autores na área de aprendizagem automática está a violar a política e a usar IA para gerar texto nos seus artigos de qualquer maneira.
Na Pangram, queríamos medir a dimensão deste problema na nossa área: Inteligência Artificial. Decidimos responder à seguinte pergunta: os investigadores de IA estão a usar o ChatGPT para escrever as suas próprias pesquisas?
Para estudar este problema, utilizámos a API OpenReview para extrair submissões de conferências de 2018 a 2024 em duas das maiores conferências de IA: ICLR e NeurIPS.
Em seguida, executámos o AI Detector da Pangram em todos os resumos enviados para essas conferências. Aqui estão as nossas conclusões:
Um gráfico que mostra a percentagem de resumos gerados por IA enviados ao ICLR por ano, revelando uma tendência ascendente desde 2023.
Um gráfico que mostra a percentagem de resumos gerados por IA enviados à Neurips por ano, revelando uma tendência ascendente desde 2023.
Podemos considerar tudo antes de 2022 como um conjunto de validação da taxa de falsos positivos do nosso modelo, porque os grandes modelos de linguagem não existiam naquela época. Conforme mostrado nas figuras, prevemos que todos os resumos de conferências de 2022 ou anteriores sejam previstos como escritos por humanos pelo nosso modelo. Isso deve inspirar confiança na precisão do nosso modelo: a nossa taxa de falsos positivos é muito boa em resumos científicos, portanto, podemos ter certeza de que todas as previsões positivas feitas em 2023 e 2024 são verdadeiras positivas.
O que temos visto desde então é altamente preocupante. Houve três ciclos de conferências desde que o ChatGPT foi lançado, em novembro de 2022.
O primeiro ciclo ocorreu logo após o lançamento do ChatGPT (ICLR 2023). O prazo para envio dos trabalhos era, na verdade, anterior ao lançamento do ChatGPT, mas os autores tiveram a oportunidade de fazer edições antes da conferência propriamente dita, que ocorreu alguns meses após o lançamento do ChatGPT. O que descobrimos era esperado: apenas alguns resumos foram escritos por IA (encontramos apenas 2 entre vários milhares escritos por IA neste ciclo) e provavelmente foram modificados após o prazo final.
O segundo ciclo ocorreu cerca de seis meses depois, no NeuRIPS 2023, cujo prazo final era no verão de 2023 para uma conferência em dezembro. Nessa conferência, relatamos que cerca de 1,3% dos resumos enviados foram gerados por IA: uma fração pequena, mas significativa.
Finalmente, no ciclo mais recente, o ICLR 2024, que aconteceu há poucos meses, observámos um aumento de até 4,9%: um crescimento de quase 4 vezes nas avaliações geradas por IA em relação ao NeuRIPS 2023!
Esses resultados revelam uma tendência preocupante: não só o número de artigos científicos gerados por IA submetidos a importantes eventos de IA está a crescer, como também esse número está a crescer a um ritmo cada vez maior. Em outras palavras, o ritmo de submissão de artigos gerados por IA está a acelerar.
Dê uma olhada em alguns desses resumos e veja por si mesmo se eles parecem com o tipo de texto que você está acostumado a ler na literatura científica técnica:
No complexo panorama dos dados em rede, compreender os efeitos causais das intervenções é um desafio crítico com implicações em vários domínios. As redes neurais gráficas (GNNs) surgiram como uma ferramenta poderosa para capturar dependências complexas, mas o potencial da aprendizagem profunda geométrica para a inferência causal de redes baseadas em GNN continua a ser pouco explorado. Este trabalho dá três contribuições fundamentais para colmatar esta lacuna. Primeiro, estabelecemos uma conexão teórica entre a curvatura do gráfico e a inferência causal, revelando que as curvaturas negativas representam desafios na identificação dos efeitos causais. Segundo, com base nessa percepção teórica, apresentamos resultados computacionais usando a curvatura de Ricci para prever a confiabilidade das estimativas dos efeitos causais, demonstrando empiricamente que as regiões de curvatura positiva produzem estimativas mais precisas. Por último, propomos um método que utiliza o fluxo de Ricci para melhorar a estimativa do efeito do tratamento em dados em rede, mostrando um desempenho superior ao reduzir o erro através do achatamento das arestas na rede. As nossas descobertas abrem novos caminhos para alavancar a geometria na estimativa do efeito causal, oferecendo insights e ferramentas que melhoram o desempenho das GNN em tarefas de inferência causal.
No domínio dos modelos linguísticos, a codificação de dados é fundamental, influenciando a eficiência e a eficácia do treino do modelo. A codificação de pares de bytes (BPE) é uma técnica de tokenização de subpalavras bem estabelecida que equilibra a eficiência computacional e a expressividade linguística, fundindo pares frequentes de bytes ou caracteres. Como o treino de modelos linguísticos requer recursos computacionais substanciais, propomos o Fusion Token, um método que melhora substancialmente a abordagem convencional de codificação de pares de bytes (BPE) na codificação de dados para modelos linguísticos. O Fusion Token emprega uma estratégia computacional mais agressiva em comparação com o BPE, expandindo os grupos de tokens de bigramas para decagramas. Notavelmente, com a adição de 1024 tokens ao vocabulário, a taxa de compressão ultrapassa significativamente a de um tokenizador BPE regular com um vocabulário de um milhão. No geral, o método Fusion Token leva a melhorias notáveis no desempenho devido a um aumento no escopo de dados por unidade de computação. Além disso, uma compressão mais alta resulta em tempos de inferência mais rápidos devido a menos tokens por string dada. Ao dedicar mais recursos de computação ao processo de construção do tokenizador, o Fusion Token maximiza o potencial dos modelos de linguagem como mecanismos eficientes de compressão de dados, permitindo sistemas de modelagem de linguagem mais eficazes.
No domínio em rápido avanço da geração de movimentos, o aprimoramento da semântica textual tem sido reconhecido como uma estratégia altamente promissora para produzir movimentos mais precisos e realistas. No entanto, as técnicas atuais dependem frequentemente de modelos linguísticos extensos para refinar as descrições textuais, sem garantir um alinhamento preciso entre os dados textuais e os dados de movimento. Este desalinhamento conduz frequentemente a uma geração de movimento subótima, limitando o potencial destes métodos. Para resolver esta questão, apresentamos uma nova estrutura chamada SemanticBoost, que visa colmatar a lacuna entre os dados textuais e os dados de movimento. A nossa solução inovadora integra informações semânticas suplementares derivadas dos próprios dados de movimento, juntamente com uma rede dedicada de redução de ruído, para garantir a coerência semântica e elevar a qualidade geral da geração de movimento. Através de extensas experiências e avaliações, demonstramos que o SemanticBoost supera significativamente os métodos existentes em termos de qualidade de movimento, alinhamento e realismo. Além disso, as nossas descobertas enfatizam o potencial de aproveitar as pistas semânticas dos dados de movimento, abrindo novos caminhos para uma geração de movimento mais intuitiva e diversificada.
Notou algum padrão? Primeiro, vemos que todos eles começam com frases muito semelhantes: «No complexo panorama de», «No domínio de», «No campo em rápida evolução de». Chamamos a isso linguagem artificialmente floreada. Já escrevemos anteriormente sobre como os LLMs costumam usar muitas palavras para produzir muito pouco conteúdo real. Embora isso possa ser desejável para um aluno que tenta atingir um número mínimo de palavras em um trabalho de casa, para um leitor técnico que tenta consumir pesquisa, esse tipo de linguagem excessivamente prolixa torna o artigo mais difícil e demorado de ler, ao mesmo tempo em que torna a mensagem real do artigo menos clara.
Questionámo-nos se os artigos gerados por IA são realmente filtrados de forma eficaz pelo processo de revisão por pares ou se alguns deles escapam à deteção.
Para responder a essa pergunta, analisámos a correlação entre os resumos gerados por IA e as decisões sobre os artigos no ICLR 2024. (Oral, destaque e pôster são todos artigos «aceites»; oral e destaque são categorias de reconhecimento especial). Eis o que descobrimos:
| Categoria | Porcentagem gerada por IA |
|---|---|
| ICLR 2024 oral | 2.33% |
| Poster da ICLR 2024 | 2.71% |
| Destaque do ICLR 2024 | 1.36% |
| Rejeitado | 5.42% |
Embora a percentagem de artigos gerados por IA que foram aceites seja inferior à percentagem enviada, um número significativo ainda passou pelo processo de revisão por pares. Isso implica que, embora os revisores possam estar a detectar algum conteúdo gerado por IA, eles não estão a detectar todo ele.
Notamos que até mesmo algumas apresentações orais e artigos em destaque têm resumos gerados por IA! Interpretando a situação de forma benevolente, o que podemos descobrir no futuro é que a pesquisa pode realmente ser de alta qualidade e que os autores estão simplesmente a usar o ChatGPT como um atalho para ajudá-los a apresentar ou revisar melhor o trabalho.
Notavelmente, como grande parte da comunidade científica não é falante nativa de inglês, um uso crescente dos LLMs será a tradução de artigos escritos em outros idiomas para o inglês.
Apesar do pedido explícito da comunidade de IA para que os autores não usem o ChatGPT, muitos autores estão ignorando a política e usando LLMs para ajudá-los a escrever os seus artigos de qualquer maneira. Mais preocupante ainda, mesmo os especialistas em IA, que atuam como revisores para proteger as conferências contra artigos gerados por LLMs, não conseguem detectá-los!
O ChatGPT está a ter efeitos ainda mais amplos em todo o processo académico. Um estudo de caso recente do ICML descobriu que entre 6% e 16% das revisões por pares foram geradas por IA, e há uma correlação positiva entre as revisões por pares geradas por IA e a proximidade da revisão em relação ao prazo final!
Apelamos à comunidade de IA para que aplique melhor estas políticas e aos autores para que assumam a responsabilidade de garantir que os seus artigos são produzidos por seres humanos.
