Anunciamos uma nova parceria com a Proofig! Saiba mais

O Pangram é o software líder na deteção de textos gerados por IA escritos pelo ChatGPT, Claude, Gemini e outros, e na distinção entre textos escritos por IA e textos escritos por humanos.
Agora, estamos a dar um passo adiante e a lançar um modelo avançado que não só consegue detetar conteúdo gerado por IA, mas também identificar de qual LLM um texto gerado por IA provém. Chamamos à nossa nova tecnologia «Identificação de IA».
Intuitivamente, as pessoas estão a começar a identificar que os diferentes LLMs têm estilos de escrita diferentes. Por exemplo, o ChatGPT é conhecido por ser bastante direto e objetivo, o Claude é conhecido por ser mais fluente e coloquial, o Grok é conhecido por ser sem censura e provocativo, e o Deepseek-R1 está a começar a ser conhecido por ser prolixo e verboso.
Graham Neubig brinca com as diferentes tendências estilísticas dos LLMs
Ethan Mollick reflete sobre a personalidade agradável de Claude Sonnet.
Um estudo recente de Lisa Dunlap e colaboradores da UC Berkeley investigou as diferenças qualitativas (ou, informalmente, as «vibrações») de diferentes LLMs. Eles descobriram muitas coisas interessantes, como «o Llama é mais humorístico, utiliza mais formatação, fornece mais exemplos e comenta muito menos sobre ética do que o GPT e o Claude». A implicação é que o desempenho do modelo nem sempre está alinhado com as preferências humanas: embora o GPT-4 e o Claude-3.5 sejam modelos mais avançados do que a série Llama, o Llama parece sempre superar as expectativas na Chatbot Arena, uma classificação colaborativa baseada no Elo de LLMs com base nas preferências em relação às respostas às mesmas perguntas. Os modelos que têm um bom desempenho na Chatbot Arena são mais inteligentes e capazes, ou estão apenas a tentar manipular a psicologia humana de uma forma que os torna mais «simpáticos»? E alguns modelos são mais úteis e simpáticos do que outros, será mesmo importante que sejam menos capazes de resolver problemas de raciocínio ao nível de doutoramento? Estas são questões que vale a pena estudar e que são importantes para compreender a utilidade de sistemas como a Chatbot Arena em relação às avaliações tradicionais de modelos.
Na Pangram, questionámo-nos se seria possível que o nosso modelo pudesse usar essas vibrações para identificar e distinguir esses LLMs uns dos outros.
Da mesma forma que treinamos o nosso modelo básico de deteção de IA para distinguir textos escritos por IA de textos escritos por humanos, também treinamos o mesmo modelo de deteção para realizar a identificação de IA usando uma técnica chamada aprendizagem multitarefa. Na prática, classificamos os vários modelos de linguagem em nove famílias, que determinamos através de extensas experiências.
As famílias são as seguintes:
Na prática, conseguimos isso adicionando outra «cabeça» à nossa rede neural. Quando supervisionamos a tarefa de deteção da IA, também supervisionamos a tarefa de identificação da IA, passando o rótulo do modelo para a rede e retropropagando o erro na identificação da IA, bem como na previsão da deteção.
Fonte da imagem: GeeksForGeeks
Quase todas as camadas do modelo são partilhadas entre as duas tarefas, e apenas a camada de previsão final é dividida.
Descobrimos na aprendizagem multitarefa que algumas tarefas ajudam umas às outras quando aprendidas em conjunto, enquanto outras prejudicam umas às outras. Na biologia, um conceito semelhante é a ideia de simbiose versus parasitismo. Por exemplo, um peixe-palhaço que vive numa anémona do mar é um exemplo de simbiose: o peixe-palhaço alimenta-se de predadores que podem prejudicar a anémona, enquanto o peixe-palhaço é protegido dos seus próprios predadores, camuflando-se e escondendo-se dentro da anémona.
Constatamos que adicionar a tarefa de identificação do LLM é simbiótico com a tarefa de deteção do LLM. Em outras palavras, pedir ao nosso modelo não apenas para detetar textos gerados por IA, mas também para identificar o modelo de onde eles vieram, é útil para poder detetar a IA. Outros investigadores também confirmaram que os vários LLMs não são apenas distinguíveis dos textos humanos, mas também são distinguíveis entre si.

Uma incorporação é uma representação de um trecho de texto como um vetor numérico. Os valores reais da incorporação não são significativos isoladamente, mas quando duas incorporações estão próximas uma da outra, isso significa que elas têm significado semelhante ou estilo semelhante. Usando uma técnica chamada UMAP, podemos visualizar as incorporações, que são muito dimensionais, em um espaço 2D. Estes autores descobriram que, quando documentos escritos por humanos e LLMs são convertidos em embeddings de estilo, como pode ver na imagem acima, todos os documentos correspondentes ao mesmo LLM são separáveis no espaço de embedding! Isso significa que, em geral, todos os documentos escritos pelo mesmo LLM são mais próximos em estilo do que aqueles escritos por diferentes LLMs, ou LLMs e humanos.
Este resultado deu-nos confiança de que era possível criar um classificador capaz de identificar a fonte LLM.
O nosso modelo tem 93% de precisão na identificação da família LLM correta da qual um texto gerado por IA se originou. Abaixo está a matriz de confusão, que mostra com que frequência o nosso modelo identifica corretamente cada família LLM (células diagonais) em comparação com a frequência com que confunde um LLM com outro (células fora da diagonal). Quanto mais escura a cor, mais previsões caem nessa célula. Um modelo perfeito teria quadrados escuros apenas ao longo da diagonal e quadrados brancos em todos os outros lugares.

Algumas observações interessantes sobre a nossa matriz de confusão:
As confusões ocorrem com mais frequência entre famílias de modelos. Por exemplo, o GPT-4 é frequentemente confundido com a série de raciocínio da OpenAI. Isso faz sentido, pois o GPT-4 provavelmente é um componente ou um ponto de partida para os modelos de raciocínio da OpenAI!
O modelo confunde mais frequentemente LLMs com «Outros» do que com LLMs específicos. Isto mostra que, nos casos em que o modelo não tem certeza, é mais provável que ele opte por «Outros» em vez de se comprometer com um determinado LLM.
Embora o classificador LLM não seja perfeito, ele costuma ser preciso e, mais importante, quando o classificador LLM está errado, ele confunde certos sistemas de IA com outros sistemas de IA, mas não confunde os resultados dos sistemas de IA com textos escritos por humanos.
Acreditávamos que era importante ir além da deteção de IA e também resolver a identificação de IA por alguns motivos.
Em primeiro lugar, acreditamos que ensinar o modelo a distinguir os estilos de escrita de diferentes LLMs, o que é uma tarefa mais difícil do que apenas identificar se algo é IA ou não, é útil para fortalecer o desempenho do próprio detetor de IA. Ao pedir ao modelo que vá além, ele está, de certa forma, a adquirir habilidades avançadas e conhecimento latente que o ajudam a generalizar a deteção de texto gerado por IA com maior precisão.
A interpretabilidade é outra razão pela qual queremos exibir os resultados do classificador LLM. Gostaríamos de criar confiança de que o modelo realmente sabe o que está a fazer nos bastidores e não está apenas a fazer suposições aleatórias (como muitos outros detetores aleatórios). Ao mostrar não apenas a pontuação da IA, mas também de qual LLM o texto veio, esperamos criar confiança na capacidade do modelo de compreender as nuances do estilo de escrita da IA.
Por fim, queremos descobrir padrões ao longo do tempo: quais LLMs estão a ser usados na prática e com que frequência? Quais são os LLMs preferidos pelos estudantes, pelos fraudadores e pelos programadores? Esses são os tipos de perguntas que agora esperamos responder em estudos futuros.
Esperamos que você goste de experimentar nosso recurso de identificação por IA e que ele seja útil para ajudar as pessoas a compreender as personalidades e estilos inatos das diferentes famílias de LLM. Para obter mais informações, entre em contato com info@pangram.com!
