Pontos principais:
- Os LLMs apresentam certos padrões que permitem às ferramentas de detecção de IA identificar se o conteúdo foi gerado por humanos ou por IA.
- Os detectores antigos dependiam da explosão e da perplexidade, mas estes não são confiáveis. Os novos detectores funcionam muito melhor e dependem de conjuntos de dados maiores e aprendizagem ativa.
- Ao escolher um detetor, os utilizadores devem determinar quais as taxas de falsos positivos e falsos negativos com as quais se sentem confortáveis. Também devem determinar se precisam de um verificador de plágio ou de outras funcionalidades antes de selecionar uma ferramenta.
- Os seres humanos que não receberam formação em deteção de IA não são muito bons nisso. No entanto, aqueles que receberam formação ou estão rotineiramente expostos a textos gerados por IA conseguem identificar melhor o conteúdo de IA do que aqueles que não receberam formação. Essa deteção, combinada com software, pode funcionar muito bem.
O que são detetores de IA?
A IA pode ser detetada. Não é magia negra, mas algo que tem muita pesquisa por trás. Numa era em que o conteúdo gerado por IA é cada vez mais prevalente na academia, na mídia e nos negócios, a capacidade de distinguir entre textos escritos por humanos e por máquinas é uma habilidade crítica. A IA faz escolhas linguísticas, estilísticas e semânticas que podem ser detectadas por um olho treinado ou por um software de deteção automatizado suficientemente bom. Isso ocorre porque podemos entender por que a IA fala da maneira que fala e quais são os padrões que podemos usar para identificá-la.
Como funcionam os grandes modelos de linguagem?
Antes de falarmos sobre como funciona o software de deteção de IA, é importante compreender que os modelos de inteligência artificial são distribuições de probabilidade. Um modelo de linguagem grande (LLM), como o ChatGPT, é uma versão muito, muito complicada disso, prevendo constantemente a próxima palavra ou «token» mais provável numa sequência. Essas distribuições de probabilidade são aprendidas a partir de uma enorme quantidade de dados, muitas vezes abrangendo uma parte significativa da Internet pública.
Uma coisa que se ouve com frequência é: «Os modelos de linguagem de IA são a média de toda a escrita humana?» A resposta é claramente não. Os modelos de linguagem não estão apenas a fazer a média das coisas que todos os humanos dizem. Por um lado, os modelos de linguagem fazem escolhas altamente idiossincráticas. Eles também são altamente tendenciosos devido aos conjuntos de dados de treino e aos preconceitos dos seus criadores. Por fim, os LLMs modernos são otimizados para seguir instruções e dizer coisas que os utilizadores querem ouvir, em vez de se preocuparem com a correção ou precisão, uma característica que os torna assistentes úteis, mas fontes de verdade pouco fiáveis.
Isso é resultado do moderno procedimento de treinamento LLM, que tem três etapas:
- Pré-treinamento: Durante esta fase do treinamento, o modelo aprende os padrões estatísticos da linguagem. Os vieses dos dados de treinamento aparecem nesses padrões. Por exemplo, dados que aparecem com frequência na Internet, como a Wikipedia, são super-representados, razão pela qual o texto gerado por IA costuma ter um tom formal e enciclopédico. Além disso, mão de obra barata e terceirizada é usada para criar dados de treinamento, e é assim que palavras como "delve" (investigar), "tapestry" (tapeçaria) e "intricate" (intrincado) se tornam extremamente comuns em textos gerados por IA, refletindo as normas linguísticas dos criadores dos dados, e não do utilizador final.
- Ajustes nas instruções: Durante esta fase, o modelo aprende a seguir instruções e obedecer a ordens. A consequência é que o modelo aprende que é melhor seguir instruções do que apresentar informações precisas e corretas. Isso resulta num comportamento bajulador ou «agradável às pessoas», em que a IA prioriza a geração de uma resposta útil e agradável, mesmo que tenha de inventar factos ou «alucinar» para o fazer. Para eles, é mais importante agradar às pessoas do que obter as informações corretas.
- Alinhamento: Durante esta fase, o modelo aprende a dizer o que as pessoas gostam e preferem. Ele aprende o que é «bom» e «ruim» dizer. No entanto, esses dados de preferência podem ser extremamente tendenciosos, muitas vezes favorecendo respostas neutras, seguras e inofensivas. Esse processo pode privar o modelo de uma voz distinta, levando-o a evitar controvérsias ou opiniões fortes. O LLM não tem base na verdade ou na correção.
Os modelos de IA generativa são produtos lançados por empresas de tecnologia que injetam intencionalmente preconceitos e comportamentos que se refletem nos seus resultados.
Quais são os padrões na linguagem da IA?
Depois de compreender como os LLMs são treinados, você poderá identificar os «sinais» das ferramentas de escrita de IA. Muitas vezes, não é uma prova conclusiva, mas uma combinação de todas essas palavras que aciona os detectores.
Linguagem e estilo
- Escolhas de palavras: Os redatores de conteúdo de IA têm palavras favoritas, tais como: aspeto, desafios, aprofundar, aprimorar, tapeçaria, testamento, autêntico, abrangente, crucial, significativo, transformador e advérbios como adicionalmente e além disso. Isso acontece devido ao viés nos conjuntos de dados de pré-treinamento. O uso frequente dessas palavras pode criar um tom excessivamente formal ou grandioso, muitas vezes parecendo fora de lugar no contexto de uma redação típica de estudante ou comunicação informal.
- Padrões de fraseologia: A escrita com IA usa padrões de fraseologia como «enquanto nós [verbo] o tópico», «é importante notar», «não só, mas também», «abrindo caminho» e «quando se trata de». Essas frases, embora gramaticalmente corretas, são frequentemente usadas como preenchimento conversacional e podem fazer com que a escrita pareça genérica e estereotipada.
- Ortografia e gramática: a escrita por IA geralmente usa ortografia e gramática perfeitas e gosta de usar frases complexas. A escrita humana usa uma mistura de frases simples e complexas, e mesmo escritores experientes às vezes usam padrões gramaticais que não são «perfeitos segundo as regras» por razões estilísticas, como usar fragmentos de frases para dar ênfase.
Estrutura e Organização
- Parágrafos e estrutura das frases: A escrita de IA geralmente gosta de usar parágrafos muito organizados, todos com aproximadamente o mesmo comprimento e estruturas semelhantes a listas. Isso pode resultar num ritmo monótono, sem a variação natural da escrita humana. Isso também se aplica ao comprimento das frases.
- Introduções e conclusões: os ensaios gerados por IA geralmente têm uma introdução e uma conclusão muito organizadas, e a conclusão costuma ser muito longa, começa com «No geral» ou «Em conclusão» e repete a maior parte do que já foi escrito, essencialmente reformulando a tese e os pontos principais sem acrescentar novas ideias ou síntese.
Propósito e Personalidade
- Objetivo e intenção: A redação é geralmente muito vaga e cheia de generalidades. Isso acontece porque o ajuste das instruções prioriza excessivamente a adesão ao prompt e, para permanecer no tópico, o modelo aprende que é melhor ser realmente vago e genérico para minimizar o risco de estar incorreto.
- Reflexão e metacognição: a IA é muito ruim em refletir e relacionar a escrita com experiências pessoais... porque não tem experiências pessoais com as quais se relacionar! A escrita humana pode mostrar a voz única e a experiência pessoal do seu autor, fazendo conexões e gerando ideias novas que não são simplesmente uma mistura de informações existentes.
- Mudanças abruptas no estilo e tom: Às vezes, há uma mudança muito chocante e abrupta no tom e no estilo. Isso acontece quando um aluno usa IA para parte da sua escrita, mas não para toda, criando um produto final inconsistente e desconexo.
Como funciona a deteção de IA: três etapas
- Treinar o modelo de deteção de IA: Primeiro, o modelo é treinado. Os primeiros detetores de IA não funcionavam muito bem porque tentavam detetar trechos de texto com alta perplexidade ou alta explosividade. A perplexidade é o quão inesperada ou surpreendente cada palavra num trecho de texto é para um grande modelo de linguagem. A explosividade é a mudança na perplexidade ao longo de um documento. No entanto, essa abordagem tem várias falhas e muitas vezes falha em detectar resultados de IA. Além disso, eles usam apenas um conjunto limitado de dados de texto para treinar. Modelos modernos e bem-sucedidos, como o Pangram, usam um conjunto mais amplo de dados e empregam técnicas como a aprendizagem ativa para obter resultados mais precisos.
- Insira o texto que precisa ser classificado e tokenize-o: um utilizador fornece a entrada. Quando um classificador recebe o texto de entrada, ele o tokeniza. Isso significa que ele pega todo o texto e o divide em uma série de números que o modelo pode interpretar. O modelo então transforma cada token em uma incorporação, que é um vetor de números que representa o significado de cada token.
- Classifique o token como humano ou IA: a entrada é passada pela rede neural, produzindo uma incorporação de saída. Um cabeçote classificador transforma a incorporação de saída numa previsão 0 ou 1, onde 0 é o rótulo humano e 1 é o rótulo de IA.
E quanto aos falsos positivos e falsos negativos?
O valor de uma ferramenta de deteção de IA é medido pelo número de falsos positivos (FPRs) e falsos negativos (NPRs) resultantes da utilização da ferramenta. Um falso positivo ocorre quando um detetor prevê erroneamente que uma amostra de conteúdo escrito por humanos foi escrita por IA. Em contrapartida, um falso negativo ocorre quando uma amostra gerada por IA é erroneamente prevista como sendo texto escrito por humanos.
Detecção humana vs. detecção automatizada
Se optar por detetar IA apenas com os olhos, deve receber formação. Pessoas sem experiência não conseguem fazer melhor do que adivinhar aleatoriamente. Mesmo linguistas avançados não conseguem detetar IA sem formação explícita. A nossa recomendação é usar os dois métodos para obter os melhores resultados, criando um processo de avaliação mais robusto e justo.
Enquanto isso, os detetores de conteúdo de IA podem dizer se algo foi ou não gerado por ferramentas de IA. Os humanos podem dizer não apenas se algo foi ou não gerado por IA, mas também podem adicionar contexto e nuances adicionais a essa decisão. Um humano conhece o contexto: amostras anteriores de redações de alunos, como é a redação de um determinado nível escolar e como é uma resposta típica de um aluno a uma tarefa. Esse contexto é fundamental, pois a adequação do uso da IA pode variar drasticamente dependendo das instruções da tarefa.
As ferramentas de deteção de IA são apenas o começo. Não são provas conclusivas de que um aluno violou a integridade académica, mas sim um ponto de dados inicial que justifica uma investigação contextual mais aprofundada. O uso de IA pode ser inadvertido, acidental ou até mesmo permitido no âmbito da sua tarefa específica: depende!
Bónus: E os Humanizadores?!
Humanizadores são ferramentas utilizadas para "humanizar" o conteúdo da IA, a fim de evitar a deteção da IA. Os redatores de conteúdo costumam utilizá-los para alterar a aparência da escrita da IA. Os humanizadores parafraseiam o texto, removem palavras específicas e adicionam «erros» semelhantes aos humanos a um conteúdo. Às vezes, isso torna o texto praticamente ilegível ou reduz significativamente a sua qualidade. Muitos detetores de IA treinam o seu software para detetar texto humanizado. Muitas vezes, é arriscado usar um humanizador, pois ele pode reduzir drasticamente a qualidade do texto, o que é particularmente preocupante para trabalhos de estudantes.
Agora que já sabe como funcionam, experimente o seu próprio conteúdo. É IA ou humano?