Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
Bugün, Meta AI'nın açık kaynaklı model serisinin en yenisi olan Llama 4 piyasaya sürüldü. Pangram'ın hala en yeni ve en iyi açık modelleri algılayabildiğini öğrenmek istedik ve bu nedenle, modelimizin şu anda yalnızca Llama 2 ve 3'ün çıktıları üzerinde eğitilmiş olmasına rağmen Llama 4'e genelleme yapıp yapmadığını görmek için hızlı bir test yaptık.
Genellikle yeni modellerin hızına ne kadar ayak uydurabildiğimiz sorulur, bu yüzden yeniden eğitim almadan önce ilk gün hızlı bir şekilde test ederiz.
Spot kontrolü için, GPT 4.5'i test etmek için kullandığımız 11 komut istemini kullandık. Bu komut istemleri, çeşitli günlük yazma görevlerini kapsıyor, ancak eğittiğimiz komut istemleriyle doğrudan ilişkili değil. Ayrıca, önceki nesil LLM'lerden önemli ölçüde ilerleme kaydeden bir modelin niteliksel olarak farklı davranışlar sergileyeceğine inandığımız bir düzeyde yaratıcılık gerektiriyorlar.
Kullandığımız komutlar şunlardır:
| Hızlı | Pangram AI olasılığı |
|---|---|
| Koala Koruma | 99.9% |
| Gazete E-postası | 99.9% |
| Oda Sıcaklığında Yarı İletken | 99.9% |
| Okul üniformaları | 99.9% |
| Şiir Günlüğü | 99.9% |
| Kaçış Odası İncelemesi | 99.9% |
| Rus Filmi E-posta | 99.9% |
| Mars'a İniş Sahnesi | 99.9% |
| Komodo Ejderhası Senaryosu | 99.9% |
| Cadılar Bayramı Ayrılık Şiiri | 99.9% |
| Venedik Kovalamaca Sahnesi | 99.9% |
Bu durumda, Pangram testi mükemmel bir puanla geçiyor! Sadece 11 yazı örneğinin tümünü AI tarafından üretilmiş olarak tahmin etmekle kalmıyor, bunu %100 güvenilirlikle yapabiliyor. (Model %100 tahmin etmesine rağmen, aslında %100 emin olamayacağımızı belirtmek için kullanıcı arayüzünde her zaman %99,9'a yuvarlıyoruz.)
Burada tüm çıktıları görebilirsiniz.
Standart değerlendirme komut istemleri kullanarak, Together API'yi çıkarım için kullanarak, akademik yazım, yaratıcı yazım, soru-cevap, bilimsel yazım ve daha fazlasını içeren çok çeşitli alanları kapsayan yaklaşık 7.000 örnekten oluşan daha büyük bir test seti oluşturduk.
İşte daha büyük test setindeki sonuçlarımız.
| Model | Doğruluk |
|---|---|
| Llama 4 Keşif | %100 (3678/3678) |
| Llama 4 Maverick | %99,86 (3656/3661) |
| Llama 4 Genel | %99,93 (7334/7339) |
Pangram neden yeni modellere bu kadar iyi uyum sağlıyor? Bunun nedeninin, Pangram'ın çok sayıda AI tarafından üretilen yazı türünü görebilmesini ve yeni türlere oldukça iyi uyum sağlamasını sağlayan, temel veri kümelerimizin gücü ve aktif öğrenme yaklaşımımızın yanı sıra geniş kapsamlı yönlendirme ve örnekleme stratejilerimiz olduğunu düşünüyoruz.
Araştırmamız hakkında daha fazla bilgi veya Llama 4 üzerinde modelimizi denemek için ücretsiz kredi almak için lütfen info@pangram.com adresinden bizimle iletişime geçin.
