Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
Bugün OpenAI, GPT-4.5'i piyasaya sürdü: mevcut en yeni ve en büyük dil modeli ve ChatGPT için önemli bir güncelleme. DeepSeek R1 ve OpenAI O3 gibi akıl yürütme modelleriyle karşılaştırılabilir benchmark istatistiklerine ulaşmasa da, GPT-4.5 yılın şimdiye kadarki en büyük ve en çok beklenen model sürümüdür ve biz de onu test etmek için sabırsızlanıyoruz. OpenAI, yazma kalitesinde büyük iyileştirmeler olduğunu iddia ediyor ve performansla ilgili sıcak yorumlar şimdiden sosyal medyada yaygınlaşmaya başladı.
Birçok kişinin merak ettiği soruyu yanıtlamak istedik: Modeller geliştikçe, GPT-4.5 ile yapay zeka tarafından üretilen metinleri hala tespit edebiliyor muyuz? Bunu öğrenmek için bugün hızlı bir test yaptık.
ChatGPT'ye sorulabilecek günlük yazma görevlerini gösteren 11 komut istemini örnek olarak aldık.
Kullandığımız komutlar şunlardır:
Komutları olabildiğince çeşitli ve farklı hale getirmeye çalıştık. Ayrıca, önceki GPT modellerinden olabildiğince önemli bir niteliksel fark sergileyen komutlar yazmaya çalıştık: başka bir deyişle, modelin yaratıcı olabileceği ve "vay be" faktörünü sergileyebileceği bir fırsat varsa, GPT-4.5'e bu fırsatı sunmak için elimizden geleni yaptık.
| Hızlı | Pangram | Önde gelen rakip 1 | Önde gelen rakip 2 |
|---|---|---|---|
| Koala Koruma | 100% | 100% | 100% |
| Gazete E-postası | 100% | 100% | 67% |
| Oda Sıcaklığında Yarı İletken | 100% | 56% | 86% |
| Okul üniformaları | 85% | 100% | 80% |
| Şiir Günlüğü | 100% | 100% | 15% |
| Kaçış Odası İncelemesi | 100% | 81% | 56% |
| Rus Filmi E-posta | 100% | 100% | 91% |
| Mars'a İniş Sahnesi | 100% | 43% | 7% |
| Komodo Ejderhası Senaryosu | 98% | 88% | 0% |
| Cadılar Bayramı Ayrılık Şiiri | 100% | 100% | 0% |
| Venedik Kovalamaca Sahnesi | 100% | 49% | 9% |
Pangram, eğitim setinde herhangi bir GPT-4.5 verisi olmasa bile, GPT-4.5 ile yazılmış 11 denemenin tamamını tespit edebilmektedir. Buna karşılık, önde gelen iki AI algılama rakibi en iyi ihtimalle düzensiz sonuçlar sunmaktadır. Pangram, 11 örnekten 10'unu %98 veya daha yüksek AI olasılığı ile güvenle tahmin edebiliyorken, rakipler genellikle yüksek düzeyde belirsizlik ifade etmekte veya en kötü durumda, metnin insan tarafından yazıldığını yüksek güvenle tahmin etmektedir.
Pangram, hem insan hem de yapay zeka tarafından üretilen milyonlarca metin örneğini inceleyen büyük bir makine öğrenimi modelidir. Büyük modeller genelleme yapma konusunda daha başarılıdır ve yapay zeka tarafından üretilen metinlerde diğerlerinin yakalayamadığı ince kalıpları fark edebilir. Aktif öğrenme yaklaşımımız, yanlış pozitif oranımızı daha da azaltırken hassasiyetimizi artırır, böylece modelin büyük ölçekte iyi çalışmasını ve rakiplerimizden çok daha etkili bir şekilde yeni LLM'lere genelleştirilmesini sağlar. Ayrıca, veri kalitesi ve çeşitliliğine odaklanmamız, sonuçta diğer modellerin yakalayamadığı daha ince ayrıntıları anlamada çok daha fazla deneyime sahip bir model ortaya çıkarır.
Evet, yapay zeka algılama aracımız GPT-4.5 tarafından üretilen metinleri algılamada hala oldukça etkilidir.
Yeni, daha büyük ve daha iyi bir model çıktığında Pangram'ın ne kadar iyi performans göstereceğini merak ediyorsanız, Pangram, bir süredir gördüğümüz en beklenen AI sürümünde, hiçbir yeniden eğitim gerektirmeden testi geçmiştir. OpenAI modelini bir sonraki güncellemede AI algılama yazılımınızın aniden çalışmayı durdurmasını istemiyorsanız, Pangram'ı bugün deneyin.
Araştırmamız hakkında daha fazla bilgi veya GPT-4.5 üzerinde modelimizi denemek için ücretsiz kredi almak için lütfen info@pangram.com adresinden bizimle iletişime geçin.
