Anunciamos uma nova parceria com a Proofig! Saiba mais
Um dos avanços mais importantes em modelos de linguagem de grande porte em 2025 foi o surgimento dos modelos de raciocínio. Trata-se de modelos que, coloquialmente, aprenderam a pensar antes de falar.
Um modelo de raciocínio é igual a um LLM normal, exceto que, além de produzir tokens de saída, esses modelos também são treinados para produzir tokens de pensamento ou tokens de raciocínio. Na fase de pensamento, o modelo tenta raciocinar sobre tarefas complexas, experimentando diferentes abordagens e questionando-se antes de dar uma resposta. Na prática, esses modelos se destacam na resolução de problemas, particularmente nas áreas de matemática e codificação, e superam em muito as expectativas em termos de pontuação em benchmarks.
Os modelos de raciocínio realizam o que é chamado de «cadeia de pensamentos» antes de falar. Aqui está um exemplo de como isso funciona, retirado do Deepseek-R1, o único modelo de raciocínio atualmente que expõe publicamente os «pensamentos» do modelo.
Exemplo da cadeia de pensamento do Deepseek R1
Neste exemplo, o Deepseek pensa no que o utilizador deseja antes de decidir começar a gerar tokens, tornando-o mais eficaz na organização lógica e na reflexão sobre qual seria o melhor resultado possível.
Vários fornecedores desenvolveram modelos de raciocínio que alcançaram um desempenho de ponta.
A série de modelos de raciocínio da OpenAI é chamada de série O. Os modelos atualmente disponíveis são o1, o1-mini, o3, o3-pro e o4-mini. O o3-pro é o mais capaz desses modelos.
A Anthropic adicionou capacidades de raciocínio às versões mais recentes do Claude. O Claude 4 Opus e o Claude 4 Sonnet têm um modo de «pensamento alargado» que lhes permite raciocinar antes de responder.
A série de modelos Gemini 2.5 do Google agora usa um processo de raciocínio interno e também são modelos de raciocínio. O Gemini 2.5 Pro, o Gemini 2.5 Flash e o Gemini 2.5 Flash-Lite têm capacidades de raciocínio.
O Deepseek R1 foi o primeiro modelo de raciocínio de código aberto e foi lançado pela empresa chinesa Deepseek. Ao contrário dos outros modelos comerciais de código fechado, no Deepseek, é possível ver os pensamentos do modelo, além do resultado final.
Além disso, outra empresa chinesa, a Qwen, lançou um modelo de raciocínio chamado Qwen-QWQ-32B. Trata-se de um modelo de raciocínio menor que pode ser implementado em uma variedade maior de contextos do que o Deepseek R1.
Recentemente, lançámos uma atualização para o modelo de deteção de IA Pangram que melhora o desempenho em modelos de raciocínio em geral.
| Modelo | Pangram (antigo) | Pangram (lançamento em julho) |
|---|---|---|
| OpenAI o1 | 99.86% | 100% |
| OpenAI o1-mini | 100% | 100% |
| OpenAI o3 | 93.4% | 99.86% |
| OpenAI o3-pro | 93.9% | 99.97% |
| OpenAI o3-mini | 100% | 100% |
| OpenAI o4-mini | 99.64% | 99.91% |
| Gemini 2.5 Pro Pensamento | 99.72% | 99.91% |
| Claude Obra 4 | 99.89% | 99.94% |
| Claude Soneto 4 | 99.89% | 99.91% |
| Deepseek-R1 | 100% | 100% |
| Qwen-QWQ-32b | 100% | 100% |
A maior melhoria de desempenho ocorre no o3 e no o3-pro. Percebemos que o o3 e o o3-pro são modelos bastante diferentes dos modelos lançados anteriormente pela OpenAI, e o nosso antigo modelo de detecção de IA não era capaz de generalizar tão bem em relação a eles, apresentando um desempenho de apenas 93% de recall quando o testamos pela primeira vez.
Outro problema que enfrentámos é que o o3 e o o3-pro são significativamente mais caros do que os seus antecessores, o que significa que não seríamos capazes de gerar dados a partir deles na mesma escala que os outros modelos. Para complicar ainda mais as coisas, estes modelos também demoram mais tempo a ser executados, porque passam muito tempo a pensar antes de gerar tokens de saída.
Regenerámos os dados do nosso conjunto de treino com uma pequena quantidade de dados o3 e o3-pro incluídos. No nosso conjunto de treino final para o lançamento de julho, o texto o3 compreende apenas 0,17% da mistura de dados de treino, e o texto o3-pro compreende apenas 0,35%. Equilibramos isso e esperávamos uma generalização, aumentando também a composição do texto o3-mini para 5% da combinação de dados de treino. Surpreendentemente, isso funcionou muito bem! Com apenas um pequeno ajuste no conjunto de treino, conseguimos igualar a recuperação do o3 e do o3 pro com a recuperação dos outros LLMs que avaliamos, sem ter que sacrificar nenhum falso positivo.
Esse comportamento do Pangram, em que podemos treiná-lo com uma pequena amostra de dados de novos LLMs que são qualitativamente diferentes dos seus antecessores, torna o Pangram o que chamamos de «Few-Shot Learner» (aprendizagem com poucos exemplos). Este comportamento tem fortes implicações: quando novos LLMs são lançados, ou mesmo novos produtos baseados em LLMs que são desenvolvidos com base em LLMs ajustados que podem ter estilos de escrita subjacentes diferentes, o Pangram é capaz de se adaptar a eles de forma rápida e económica, sem a necessidade de uma regeneração massiva de conjuntos de dados.
Muitas pessoas perguntam-nos por que acreditamos que podemos vencer o que, em última análise, é um jogo de «gato e rato». Como o Pangram é um aprendizado de poucos exemplos, alcançar os novos LLMs não é tão difícil quanto pode parecer à primeira vista — precisamos apenas de alguns exemplos para mostrar ao Pangram antes que ele seja capaz de generalizar e aprender o padrão com muita eficiência. Em termos simples, o Pangram é extremamente eficaz em «aprender a aprender» como são os novos LLMs, porque já viu muitos LLMs no passado.
Isso, juntamente com o facto de cada LLM ter o seu próprio estilo distinto e idiossincrático, tornou mais fácil para a Pangram adaptar-se aos novos LLMs à medida que são lançados, mesmo com os LLMs a melhorarem e a tornarem-se mais capazes. Na nossa opinião, a capacidade do LLM é ortogonal à detectabilidade do LLM.
Ouvimos de várias pessoas nos círculos de IA que o o3 e o o3-pro têm uma vibração diferente dos outros LLMs que vimos antes. Na nossa experiência, eles são os primeiros modelos em muito tempo (desde o Claude 2) que o Pangram não capta zero-shot com 99%+ de confiabilidade (sem ver nenhum dado do modelo). Embora seja difícil identificar o que os torna diferentes, aqui está uma coleção de algumas hipóteses sobre por que pode haver algo especial neles.
O o3 e o o3-pro são excessivamente otimizados para o uso de ferramentas. Sabemos que o Pangram está a detetar, em grande parte, conteúdo gerado por IA com base em comportamentos e idiossincrasias introduzidos no pós-treinamento. A OpenAI afirma em sua publicação no blog que o o3 e o o3-pro são diferentes de seus antecessores, pois são treinados usando aprendizado por reforço para usar ferramentas como parte de seu processo de pós-treinamento. Essa diferença no algoritmo de pós-treinamento também pode ter afetado qualitativamente o estilo das saídas.
O o3 e o o3-pro têm mais alucinações. De acordo com Nathan Lambert, o o3 inseriu um caractere não ASCII inválido no código, teve alucinações sobre as ações que realizou ao tentar resolver tarefas, como alucinar que executou um código de temporização num Macbook Pro que era completamente inventado, e avaliações independentes realizadas pela METR descobriram que o o3 tem uma propensão para «hackear as suas pontuações» em vez de realmente resolver tarefas agênicas.
Para obter mais informações sobre o o3 e o o3-pro, recomendamos a leitura da publicação no blogue de Nathan, «Vibe Check», de Dan Shipper, e a publicação no blogue de lançamento da OpenAI.
O Pangram é tão forte em modelos de raciocínio quanto qualquer outro LLM, mas o o3 e o o3-pro parecem diferentes dos seus antecessores em termos de estilo e tom de escrita. Ao longo do processo de melhoria do desempenho do Pangram no o3 e no o3-pro, percebemos que, na verdade, talvez não precisemos de tantos exemplos de cada LLM quanto pensávamos quando eles são lançados, devido ao facto de o Pangram ser um aprendizado extremamente forte com poucos exemplos.
Estamos a considerar alterações na nossa arquitetura e rotina de formação que tornarão a atualização do Pangram muito mais rápida e fácil, além de nos permitir enviar modelos de detecção de IA capazes de detectar os LLMs mais recentes ainda mais rapidamente do que antes. Fique atento a mais atualizações!
