Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin

Pangram Metni Güncellemesi: GPT-4o, Claude 3, LLaMA 3

Bradley Emi
22 Mayıs 2024

Fotoğraf: Google DeepMind.

Bugün, GPT-4o, Claude 3 ve LLaMA 3'ten AI tarafından yazılmış metinleri neredeyse mükemmel bir doğrulukla tespit eden modelimize bir güncelleme yayınlayarak, pazardaki yeni LLM'lere hızla uyum sağlama yeteneğimizi sergilemekten heyecan duyuyoruz.

TL;DR:

  • GPT-4o, Claude 3 ve LLaMA 3'te performansı artıran Pangram Text'in yeni sürümünü yayınladık.
  • Altyapı boru hattımız, yeni modeller halka açık hale gelir gelmez büyük miktarda AI metnini hızlı bir şekilde alabilecek şekilde kurulmuştur.
  • Tüm bu yeni modellerin performansı GPT-4 seviyesine yaklaştıkça, stil olarak da aynı şekilde konuşmaya başladıklarını görüyoruz.

Sonuçlar

En son piyasaya sürdüğümüz model, eğitim setinde herhangi bir örnek görmeden bile yeni modellerin çıktılarını oldukça iyi tespit edebildi. Ancak, sadece "oldukça iyi" olmakla yetinmiyoruz, AI tespiti ile mümkün olanın sınırlarını sürekli olarak zorlayarak müşterilerimiz için mümkün olan en yüksek doğruluğu elde etmek istiyoruz.

Yeni nesil dil modellerinde ne kadar başarılı olduğumuzu test etmek için, sınıflandırılması zor insan metinleri ve bir dil modeli panelinden elde edilen AI tarafından üretilen metinlerden oluşan 25.000 örnekten oluşan değerlendirme setimizi yeniledik. Bu yeni değerlendirme setinin yaklaşık %40'ı, GPT-4o, Claude 3 ve LLaMA 3'ten elde edilen, haberler, incelemeler, eğitim ve daha fazlasını içeren çeşitli metin alanlarını kapsayan çok çeşitli AI tarafından üretilen metinlerden oluşmaktadır.

Mevcut olduğunda yeni modellerin tüm sürümlerini kullanıyoruz: örneğin, Claude 3'ün Opus, Sonnet ve Haiku sürümlerinden eşit olarak örnekler alıyoruz.

Eğitim veri setimizi en son LLM'leri içerecek şekilde güncelledikten sonra, en yeni nesil dil modelleri tarafından üretilen metinlerde yine neredeyse mükemmel bir doğruluk elde ettiğimizi gördük.

LLMPangram Metni Mart DoğruluğuPangram Metni Doğruluğu% İyileşme
Tüm99.54%99.84%+0.30%
GPT-4o99.78%100%+0.22%
Claude 399.12%99.76%+0.64%
LLaMA 399.58%99.97%+0.39%

Yeni modellerde performansı iyileştirmenin yanı sıra, en yeni nesil modellerden elde edilen eğitim verilerini dahil etmenin, bazı eski modellerde performansı da biraz iyileştirdiğini gördük.

Eski model değerlendirme setimizde herhangi bir gerileme olmamasına rağmen, GPT-3.5 ve (normal) GPT-4 algılamasından birkaç vakayı iyileştirdiğimizi tespit ettik. Spesifik olarak, model tarafından daha önce başarısız olan 8 GPT-3.5 vakasının artık başarılı olduğunu ve model tarafından daha önce başarısız olan 13 GPT-4 vakasının artık başarılı olduğunu tespit ettik. Buradan, modelimizin GPT-4o, Claude 3 ve LLaMA 3'ü algılama yeteneğinin artmasının, eski modelleri algılama yeteneğinde herhangi bir kayba yol açmadığı sonucuna varıyoruz.

Önde olmak

LLM'lerin sınırlarının hızla değişeceğini başından beri biliyorduk, bu nedenle sistem mimarimizi bunu göz önünde bulundurarak tasarladık. Sistemlerimiz, yeni bir API halka açık hale geldikten birkaç saat içinde verileri yeniden oluşturabilecek ve yeni bir modelin eğitimine başlayabilecek şekilde tasarlanmıştır.

Yeni bir model piyasaya sürüldüğünde, yeni bir veri seti oluşturmak ve modeli yeniden eğitmek, yapılandırma değişikliği kadar basittir. Veri setimizin insan tarafına yakın, ancak tam olarak aynı olmayan, insan benzeri metinler üretmek için LLM'lere beslenmek üzere tasarlanmış standart bir komut istemi şablonu kütüphanemiz bulunmaktadır. Sentetik Aynalarla Sert Negatif Madencilik olarak adlandırılan bu süreci teknik raporumuzda ayrıntılı olarak anlatıyoruz.

Bu yeni modelin piyasaya sürülme takvimi şu şekildeydi:

13 Mayıs: GPT-4o piyasaya sürüldü ve OpenAI API'da kullanıma sunuldu. 14 Mayıs: Veri kümesi boru hattı güncellendi ve yeni eğitim ve değerlendirme setleri oluşturuldu. 15-16 Mayıs: AI algılama modeli yeni veri kümeleri kullanılarak eğitildi. 17 Mayıs: Kalite kontrol ve sağlamlık kontrolleri yapıldı ve model piyasaya sürüldü.

Oluşturduğumuz altyapı, yeni modellerden gelen metinleri sadece bir hafta içinde üretim algılama sistemine hızlı bir şekilde adapte etmemizi sağlıyor.

Azalan Getiriler?

Yeni modeller gittikçe daha iyi hale geldikçe, tespit edilmesi de daha zor hale gelmelidir, değil mi? Bu cazip ama sonuçta yanlış olan argümanı destekleyecek kanıtları henüz bulamadık.

Gözlemlerimize göre, daha yetenekli modeller, daha kendine özgü stilleri nedeniyle, aslında daha az yetenekli modellere göre daha kolay tespit edilebiliyor. Örneğin, eski modelimizin Claude Opus'u Sonnet ve Haiku'dan daha iyi tespit ettiğini gördük.

LMSYS liderlik tablosunda gördüğümüz gibi, birçok temel model GPT-4 seviyesine asimptotik olarak yaklaşıyor, ancak henüz hiçbir model onu önemli bir farkla ikna edici bir şekilde geçemedi. Durumu kuşbakışı olarak ele alırsak, birkaç farklı temel model şirketi aynı dikkat temelli mimariyi benimseyip bunu tüm İnternet üzerinde eğitirse, tüm modellerden çıkan dilin birbirine inanılmaz derecede benzer hale gelmesi şaşırtıcı değildir. Dil modelleriyle düzenli olarak etkileşimde bulunanlar, bunun ne anlama geldiğini hemen anlayacaktır.

Gözlem düzeyinde, LLM'lerin, bir görüş yazısı, bir inceleme veya yaratıcı bir kısa öykü gibi yaratıcı ve özgün bir yazı yazmaları istendiğinde, hala hayal gücü yoksunu ve sıkıcı saçmalıklar ürettiklerini görüyoruz. Bunun temel olarak, dağılım dışı orijinal düşünce ve fikirlerden uzak dururken, yüksek olasılıklı tamamlamaları tahmin etme optimizasyon hedefinin bir özelliği olduğuna inanıyoruz.

İnsanların yazdıkları özgün metinlere değer veriyoruz, çünkü bunlar bize yeni bir bakış açısı veya farklı bir düşünce tarzı sunabilir, bir kişinin söyleyebileceği ortalama bir şey olduğu için değil. Bu değer geçerli olduğu sürece, yapay zeka tespiti her zaman gerekli olacak ve bunu çözmenin bir yolu her zaman bulunacaktır.

Haber bültenimize abone olun
AI algılama araştırmalarımızla ilgili aylık güncellemeleri paylaşıyoruz.