Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
2025 yılında büyük dil modellerinde en önemli gelişmelerden biri, akıl yürütme modellerinin yükselişi olmuştur. Bu modeller, halk dilinde, konuşmadan önce düşünmeyi öğrenmiş modellerdir.
Bir akıl yürütme modeli, normal bir LLM ile aynıdır, ancak çıktı belirteçleri üretmenin yanı sıra, bu modeller aynı zamanda düşünme belirteçleri veya akıl yürütme belirteçleri üretmek için de eğitilir. Düşünme aşamasında, model karmaşık görevleri akıl yürütmeye çalışır, farklı yaklaşımlar dener ve bir cevap vermeden önce kendini sorgular. Uygulamada, bu modeller problem çözmede, özellikle matematik ve kodlama alanlarında mükemmeldir ve karşılaştırma puanlarında ağırlıklarının çok üzerinde performans gösterirler.
Akıl yürütme modelleri, konuşmadan önce "düşünce zinciri" olarak adlandırılan bir işlem gerçekleştirir. İşte bunun nasıl bir şey olduğuna dair bir örnek, Deepseek-R1'den, şu anda modelin "düşüncelerini" kamuya açık olarak ortaya koyan tek akıl yürütme modelinden.
Deepseek R1 düşünce zinciri örneği
Bu örnekte Deepseek, tokenleri çıkarmaya başlamadan önce kullanıcının ne istediğini düşünür ve bu sayede en iyi çıktının ne olabileceğini mantıklı bir şekilde organize edip düşünmede daha etkili olur.
Birkaç sağlayıcı, en gelişmiş performansı elde eden akıl yürütme modelleri geliştirmiştir.
OpenAI'nin akıl yürütme modeli serisi O serisiolarak adlandırılır. Şu anda mevcut olan modeller o1, o1-mini, o3, o3-pro ve o4-mini'dir. Bu modeller arasında en yetenekli olanı o3-pro'dur.
Anthropic, Claude'un en son sürümlerine akıl yürütme yetenekleri ekledi. Claude 4 Opus ve Claude 4 Sonnet, cevap vermeden önce akıl yürütmelerini sağlayan bir "genişletilmiş düşünme" moduna sahiptir.
Google'ın Gemini 2.5 model serisi artık dahili bir düşünme süreci kullanıyor ve aynı zamanda akıl yürütme modelleri de içeriyor. Gemini 2.5 Pro, Gemini 2.5 Flash ve Gemini 2.5 Flash-Lite'ın tümü düşünme yeteneklerine sahip.
Deepseek R1, ilk açık kaynaklı akıl yürütme modeliydi ve Çinli şirket Deepseek tarafından piyasaya sürüldü. Diğer ticari kapalı kaynaklı modellerin aksine, Deepseek'te nihai çıktının yanı sıra modelin düşüncelerini de görebilirsiniz.
Ayrıca, başka bir Çinli şirket olan Qwen, Qwen-QWQ-32B adlı bir düşünme modeli yayınladı. Bu model, Deepseek R1'den daha geniş bir yelpazede kullanılabilen daha küçük bir akıl yürütme modelidir.
Kısa süre önce, Pangram AI algılama modeline yönelik bir güncelleme yayınladık. Bu güncelleme, tüm mantık modellerinde performansı artırıyor.
| Model | Pangram (eski) | Pangram (Temmuz ayında piyasaya sürülecek) |
|---|---|---|
| OpenAI o1 | 99.86% | 100% |
| OpenAI o1-mini | 100% | 100% |
| OpenAI o3 | 93.4% | 99.86% |
| OpenAI o3-pro | 93.9% | 99.97% |
| OpenAI o3-mini | 100% | 100% |
| OpenAI o4-mini | 99.64% | 99.91% |
| Gemini 2.5 Pro Düşünme | 99.72% | 99.91% |
| Claude Opus 4 | 99.89% | 99.94% |
| Claude Sonnet 4 | 99.89% | 99.91% |
| Deepseek-R1 | 100% | 100% |
| Qwen-QWQ-32b | 100% | 100% |
En güçlü performans artışı o3 ve o3-pro'da görülmektedir. O3 ve o3-pro'nun OpenAI'nin daha önce piyasaya sürdüğü modellerden oldukça farklı modeller olduğunu fark ettik ve eski AI algılama modelimiz bu modellere karşı genel bir değerlendirme yapamadı ve ilk testimizde yalnızca %93 geri çağırma performansı gösterdi.
Karşılaştığımız bir diğer sorun ise, o3 ve o3-pro'nun önceki modellerden önemli ölçüde daha pahalı olmasıydı. Bu da, diğer modellerle aynı ölçekte veri üretemeyeceğimiz anlamına geliyordu. İşleri daha da karmaşık hale getiren ise, bu modellerin çıktı tokenleri üretmeden önce çok fazla düşünme süresi harcadıkları için çalıştırılmaları daha uzun sürmesiydi.
Eğitim seti verilerimizi, az miktarda o3 ve o3-pro verileri ekleyerek yeniden oluşturduk. Temmuz sürümü için hazırladığımız son eğitim setinde, o3 metinleri eğitim verilerinin sadece %0,17'sini, o3-pro metinleri ise %0,35'ini oluşturuyor. Bunu dengeledik ve o3-mini metinlerin bileşimini eğitim verileri karışımının %5'ine çıkararak genelleme yapmayı umduk. Şaşırtıcı bir şekilde, bu çok iyi sonuç verdi! Eğitim setinde sadece küçük bir ayarlama yaparak, yanlış pozitifleri feda etmek zorunda kalmadan, o3 ve o3 pro'nun geri çağırma oranını değerlendirdiğimiz diğer LLM'lerin geri çağırma oranıyla eşleştirebildik.
Pangram'ın bu davranışı, yani önceki modellerden niteliksel olarak farklı olan yeni LLM'lerden elde edilen küçük bir veri örneği üzerinde eğitilebilmesi, Pangram'ı bizim "Few-Shot Learner" (az sayıda örnekle öğrenen) olarak adlandırdığımız bir model haline getiriyor. Bu davranışın güçlü etkileri vardır: yeni LLM'ler piyasaya sürüldüğünde, hatta farklı yazma stillerine sahip ince ayarlı LLM'lere dayanan yeni LLM tabanlı ürünler piyasaya sürüldüğünde, Pangram büyük veri seti yeniden üretimi gerektirmeden bunlara hızlı ve ucuz bir şekilde uyum sağlayabilir.
Birçok kişi bize, nihayetinde bir "kedi fare oyunu" olan bu oyunu neden kazanabileceğimize inandığımızı soruyor. Pangram birkaç denemede öğrenen bir sistem olduğu için, yeni LLM'leri yakalamak göründüğü kadar zor değil. Pangram'a sadece birkaç örnek göstererek, onun genelleme yapmasını ve kalıbı çok verimli bir şekilde öğrenmesini sağlayabiliriz. Basitçe söylemek gerekirse, Pangram geçmişte çok sayıda LLM gördüğü için yeni LLM'lerin nasıl olduğunu "öğrenmeyi öğrenme" konusunda son derece etkilidir.
Bu durum, her LLM'nin kendine özgü, kendine has bir stile sahip olmasıyla birleştiğinde, LLM'ler gelişip daha yetenekli hale geldikçe, Pangram'ın yeni LLM'lere uyum sağlamasını daha da kolaylaştırmıştır. Bizim görüşümüze göre, LLM yeteneği LLM algılanabilirliğiyle ortogonal bir ilişkidedir.
AI çevrelerinden birçok kişiden, o3 ve o3-pro'nun daha önce gördüğümüz diğer LLM'lerden farklı bir havası olduğunu duyduk. Deneyimlerimize göre, bunlar Pangram'ın %99'un üzerinde güvenilirlikle (modelin verilerini görmeden) zero-shot yakalayamadığı uzun zamandır (Claude 2'den beri) ilk modeller. Bunları farklı kılanın ne olduğunu tam olarak belirlemek zor olsa da, bunların neden özel olabileceğine dair bazı hipotezleri burada bir araya getirdik.
o3 ve o3-pro, araç kullanımı için aşırı optimize edilmiştir. Pangram'ın, büyük ölçüde eğitim sonrası tanıtılan davranışlara ve kendine özgü özelliklere dayalı olarak AI tarafından üretilen içeriği tespit ettiğini biliyoruz. OpenAI, yayınladığı blog yazısında, o3 ve o3-pro'nun, eğitim sonrası süreçlerinin bir parçası olarak araçları kullanmak için pekiştirme öğrenimi kullanılarak eğitilmeleri açısından öncekilerden farklı olduklarını belirtiyor. Eğitim sonrası algoritmadaki bu fark, çıktıların stilini de niteliksel olarak etkilemiş olabilir.
o3 ve o3-pro daha fazla halüsinasyon görür. Nathan Lambert'e göre, o3 kodda geçersiz bir ASCII dışı karakter koydu, görevleri çözmeye çalışırken yaptığı eylemleri halüsinasyon olarak gördü, örneğin tamamen uydurma bir Macbook Pro'da zamanlama kodunu çalıştırdığını hayal etti ve METR'nin bağımsız değerlendirmeleri, o3'ün gerçekte ajan görevlerini çözmekten ziyade "puanlarını hackleme" eğiliminde olduğunu ortaya çıkardı.
o3 ve o3-pro hakkında daha fazla bilgi için Nathan'ın blog yazısını, Dan Shipper'ın "Vibe Check" adlı yazısını ve OpenAI'nin yayınladığı blog yazısını okumanızı öneririz.
Pangram, diğer LLM'ler kadar mantık modellerinde güçlüdür, ancak o3 ve o3-pro, yazım stili ve üslup açısından öncekilerden farklı görünmektedir. Pangram'ın o3 ve o3-pro'daki performansını iyileştirme sürecinde, Pangram'ın son derece güçlü bir few-shot öğrencisi olması nedeniyle, her LLM'nin piyasaya sürüldüğünde düşündüğümüz kadar çok örneğe ihtiyacımız olmayabileceğini fark ettik.
Pangram'ı çok daha hızlı ve kolay bir şekilde güncelleyebilmemiz ve en yeni LLM'leri eskisinden daha hızlı tespit edebilen AI algılama modellerini sunabilmemiz için eğitim mimarimiz ve rutinimizde değişiklikler yapmayı düşünüyoruz. Daha fazla güncelleme için bizi takip etmeye devam edin!
