Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
Fotoğraf: Tara Winstead.
Geçen ay, modelimizi rakiplerimizle ve önde gelen akademik yöntemlerle kapsamlı bir şekilde karşılaştıran teknik raporumuzu yayınladık.
Bugün, bu zorlu benchmark testinde performansımızı daha da artıran yeni bir modelin piyasaya sürüldüğünü duyuruyoruz.
| Doğruluk | Yanlış Negatif Oran | Yanlış Pozitif Oranı | |
|---|---|---|---|
| Şubat Modeli | 99.0% | 1.30% | 0.67% |
| Mart Modeli | 99.84% | 0.11% | 0.19% |
Yeni modeli üretmek için, teknik raporumuzda kullandığımız aktif öğrenme yaklaşımını kullandık: Sentetik Aynalarla Sert Negatif Madencilik. Ancak, bu sürüm güncellemesi için modelimizi önemli ölçüde büyüttük ve modeldeki toplam parametre sayısını bir kat artırdık. Bunu yapmak için, yeni modeli eğitmek için gereken hesaplama kaynaklarını da büyütmek ve LLM'leri verimli bir şekilde ince ayarlamak için yaygın olarak kullanılan bir teknik olan Düşük Sıralı Uyarlama (LoRA) uyguladık. Bu yeni model, NVIDIA'nın yeni H100 GPU'larında eğitilmiş ilk modelimizdir!
Daha küçük modellerin, DetectGPT'nin AI tarafından üretilen metinleri algılamada daha iyi çalıştığı görülmüştür ve teknik raporumuzda ölçeklendirme yasalarının doygunluğunu daha önce tartışmıştık. Özetlemek gerekirse, kritik bir veri eşiğinden sonra (bizim durumumuzda yaklaşık 40 bin belge) daha fazla veri eklemenin modeli iyileştirmediğini gördük.
Ayrıca, MTEB, IMDB duygu analizi ve AGNews gibi diğer metin sınıflandırma görevlerinin liderlik tablosuna bakarsanız, liderlik tablosunun hala XLNet, DeBERTa ve T5-XXL gibi modeller tarafından domine edildiğini göreceksiniz. Bu modeller, yıllardır basit sınıflandırma görevlerinde iyi sonuçlar veren, denenmiş ve kanıtlanmış mimariler olsa da, mevcut en gelişmiş büyük dil modellerinin boyutlarına yaklaşamıyorlar. Bu BERT tarzı modeller yaklaşık iki yüz milyon parametreye sahipken, önde gelen açık kaynaklı LLM'ler şu anda on milyarlarca parametreye sahiptir – bu çok büyük bir fark!
LLM tarzı mimarilerin metin sınıflandırmasında pek başarılı olmamasının nedeni, büyük ölçüde kolayca aşırı uyum sağlamalarıdır. Her iki dünyanın da en iyisini nasıl elde edebiliriz: LLM gibi çok daha fazla "temel" bilgiye sahip, ancak sınıflandırma görevlerinde aşırı uyum sağlamayan bir model?
En son sürümümüzde, LoRA olarak bilinen büyük dil modellerini ince ayarlamak için nispeten yaygın bir teknikten yararlanıyoruz.
Orijinal makaleden LoRA tensör işlemlerinin görselleştirilmesi.
LoRA'nın ana fikri, (1) çok zaman ve bellek gerektiren, (2) aşırı uyumlanmaya çok yatkın olan ve (3) ön eğitim verilerinin felaketle sonuçlanabilecek şekilde unutulmasına neden olabilen tüm modeli ince ayarlamak yerine, temel LLM'nin yerinde tutulması ve adaptör modüllerinin LLM'nin temel dikkat bloklarının yanında yan ağlar olarak eğitilmesidir. LoRA, "Düşük Sıralı Uyarlama" anlamına gelir; bu, adaptör modüllerinin parametre verimli ağırlık matrislerine güzelce ayrıştığı, böylece çok hızlı eğitilebildiği ve bellek verimli olduğu anlamına gelir.
LoRA makalesindeki bu şekil, bu fikri güzel bir şekilde açıklamaktadır. Orijinal LLM, yalnızca mavi W matrisi ile temsil edilmektedir. Turuncu modüllerin eğitilmesine izin verilirken, orijinal LLM'deki mavi modül, adaptör modülü onu atlamayı öğrenirken olduğu yerde donmuş halde kalır.
LoRA'nın performansımızı önemli ölçüde artırdığını ve hem yanlış pozitif hem de yanlış negatif oranlarını azalttığını tespit ettik.
Bu iyileşmenin büyük ölçüde LLM'de bulunan ön eğitim bilgilerinin daha fazla olmasından kaynaklandığını ve LoRA adaptör fikri sayesinde aşırı uyumlama yapmadan bu bilgileri kullanabildiğimizi varsayıyoruz. Çok güzel!
En iyi derin öğrenme mimarileriyle güncel kalmak için zaman içinde mimari iyileştirmeler yapmaya devam edeceğiz. Ayrıca, ek mimari ve veri iyileştirmeleri de planlıyoruz, ancak önce daha zor bir değerlendirme seti hazırlamanın zamanı geldi!
Bizi izlemeye devam edin…
Bizimle iletişime geçmek ister misiniz? info@pangram.com adresine e-posta gönderin!
