Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin

Pangram, Meta'nın Llama 4'ünü algılıyor mu?

Bradley Emi
6 Nisan 2025

Giriş

Bugün, Meta AI'nın açık kaynaklı model serisinin en yenisi olan Llama 4 piyasaya sürüldü. Pangram'ın hala en yeni ve en iyi açık modelleri algılayabildiğini öğrenmek istedik ve bu nedenle, modelimizin şu anda yalnızca Llama 2 ve 3'ün çıktıları üzerinde eğitilmiş olmasına rağmen Llama 4'e genelleme yapıp yapmadığını görmek için hızlı bir test yaptık.

AI Dedektörleri Yeni Modellerin Hızına Yetişebilecek mi?

Genellikle yeni modellerin hızına ne kadar ayak uydurabildiğimiz sorulur, bu yüzden yeniden eğitim almadan önce ilk gün hızlı bir şekilde test ederiz.

Pangram'ı Test Etmek

Spot kontrolü için, GPT 4.5'i test etmek için kullandığımız 11 komut istemini kullandık. Bu komut istemleri, çeşitli günlük yazma görevlerini kapsıyor, ancak eğittiğimiz komut istemleriyle doğrudan ilişkili değil. Ayrıca, önceki nesil LLM'lerden önemli ölçüde ilerleme kaydeden bir modelin niteliksel olarak farklı davranışlar sergileyeceğine inandığımız bir düzeyde yaratıcılık gerektiriyorlar.

Kullandığımız komutlar şunlardır:

  1. Peru'daki koala koruma çabaları hakkında 300 kelimelik bir makale yazın.
  2. Ekibime gazetemde liberal köşe yazıları yayınlamayı sonlandıracağımı açıklayan bir e-posta yaz. Argylle J. Baggins adına Washington Most çalışanlarına yaz.
  3. Dünyanın ilk oda sıcaklığında çalışan yarı iletkenini duyuran 400 kelimelik bir özet yazın (ama bu sefer gerçek olsun). Gerekirse isimler ve laboratuvarlar uydurun.
  4. İlkokul öğrencisinin bakış açısından, okul üniformalarının zorunlu olmaması gerektiğine dair ikna edici bir kompozisyon yazın.
  5. Şiir ve penceresinin dışındaki kelebeklerle ilgilenen 12 yaşındaki bir çocuğun karmaşık bir günlük yazısı yazın.
  6. Baltimore Maryland'da, Robert adında bir adamın çalıştığı ve gerçekten iyi bir prodüksiyon tasarımına sahip, Binbir Gece Masalları temalı bir kaçış odası hakkında ayrıntılı bir yorum yazın.
  7. Rusya'da büyük başarı elde eden bir bağımsız film yapımcısının, Akademi Ödülleri'nin yöneticilerine, yaptırımlara rağmen filmlerinin yarışmaya katılmalarına izin vermeleri için yalvaran ikna edici bir e-posta yazın. Gerekirse ayrıntıları uydurun.
  8. Bir romandaki sahne için yaratıcı bir kurgu yazın. Bu sahnede, bir grup genç yetişkin kahraman, NASA'nın yanlış gitmesi için tasarlanmış bir simülasyonda, güçlendirilmiş bir Mars uçağını indirmek için mücadele ediyor.
  9. New York'ta iflas etmiş bir finansçı, Florida'daki bir Uber sürücüsüne, kasırgalara maruz kalan ucuz apartman dairesinden komodo ejderhasını kurtarması için uzaktan yalvaran bir film sahnesi için senaryo yazın.
  10. Cadılar Bayramı gecesi kostüm giymiş genç bir çiftin ayrılmasını anlatan bir şiir yazın. Komik olsun ve 200 kelime olsun.
  11. Venedik'te, tehlikeli bir şekilde sallanan paha biçilmez bir tabloyu takip eden bir hover-motosiklet kovalamacasını anlatan yaratıcı bir öykü yazın.

Sonuçlar

HızlıPangram AI olasılığı
Koala Koruma99.9%
Gazete E-postası99.9%
Oda Sıcaklığında Yarı İletken99.9%
Okul üniformaları99.9%
Şiir Günlüğü99.9%
Kaçış Odası İncelemesi99.9%
Rus Filmi E-posta99.9%
Mars'a İniş Sahnesi99.9%
Komodo Ejderhası Senaryosu99.9%
Cadılar Bayramı Ayrılık Şiiri99.9%
Venedik Kovalamaca Sahnesi99.9%

Bu durumda, Pangram testi mükemmel bir puanla geçiyor! Sadece 11 yazı örneğinin tümünü AI tarafından üretilmiş olarak tahmin etmekle kalmıyor, bunu %100 güvenilirlikle yapabiliyor. (Model %100 tahmin etmesine rağmen, aslında %100 emin olamayacağımızı belirtmek için kullanıcı arayüzünde her zaman %99,9'a yuvarlıyoruz.)

Burada tüm çıktıları görebilirsiniz.

Together API kullanarak daha büyük bir örneklem büyüklüğünü değerlendirme

Standart değerlendirme komut istemleri kullanarak, Together API'yi çıkarım için kullanarak, akademik yazım, yaratıcı yazım, soru-cevap, bilimsel yazım ve daha fazlasını içeren çok çeşitli alanları kapsayan yaklaşık 7.000 örnekten oluşan daha büyük bir test seti oluşturduk.

İşte daha büyük test setindeki sonuçlarımız.

ModelDoğruluk
Llama 4 Keşif%100 (3678/3678)
Llama 4 Maverick%99,86 (3656/3661)
Llama 4 Genel%99,93 (7334/7339)

Sonuç

Pangram neden yeni modellere bu kadar iyi uyum sağlıyor? Bunun nedeninin, Pangram'ın çok sayıda AI tarafından üretilen yazı türünü görebilmesini ve yeni türlere oldukça iyi uyum sağlamasını sağlayan, temel veri kümelerimizin gücü ve aktif öğrenme yaklaşımımızın yanı sıra geniş kapsamlı yönlendirme ve örnekleme stratejilerimiz olduğunu düşünüyoruz.

Araştırmamız hakkında daha fazla bilgi veya Llama 4 üzerinde modelimizi denemek için ücretsiz kredi almak için lütfen info@pangram.com adresinden bizimle iletişime geçin.

Haber bültenimize abone olun
AI algılama araştırmalarımızla ilgili aylık güncellemeleri paylaşıyoruz.