Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
Fotoğraf: Valentin Antonucci.
Amiral gemisi AI algılama modelimiz Pangram Text'e yönelik önemli bir güncellemeyi duyurmaktan heyecan duyuyoruz. Pangram Text artık İspanyolca, Fransızca, İtalyanca, Portekizce, Almanca, Rusça ve Mandarin Çincesinde AI tarafından üretilen metinleri, İngilizce yazılmış metinlerle aynı sektör lideri doğrulukla algılayabiliyor. Çevrimiçi platformları AI spam'lerinden korumak için yeni çok dilli modelimizi hemen kullanıma sunuyoruz.
Modelimizin İngilizce dışındaki dillerde doğruluğunu test etmek için, farklı alanlardan 3 büyük ve çeşitli çok dilli metin koleksiyonu kullanıyoruz: Amazon çok dilli yorumları, Wikipedia ve XLSum (BBC News International).
Benchmark'ın insan tarafı için, akıl sağlığı kontrol filtrelerimizden geçen rastgele belgeleri örnekliyoruz. Benchmark'ın AI tarafı için ise GPT-3.5, GPT-4 ve GPT-4o'nun bir karışımını kullanıyoruz. İlk olarak, LLM'den gerçek belgeyi özetlemesini istiyoruz, örneğin "Bu inceleme ne hakkında?" Ardından, özet verilen bir inceleme, makale veya haber parçası oluşturmasını istiyoruz. Benchmark'ı bu şekilde oluşturmak, etiket gürültüsü olasılığını ortadan kaldırmanın yanı sıra, insan ve AI veri dağılımlarının birbirine olabildiğince benzer olmasını sağlar.
| Dil | Amazon Yorumlarının Doğruluğu | Wikipedia Doğruluğu | XLSum (BBC News) Doğruluk |
|---|---|---|---|
| İspanyolca | 99.59% | 99.75% | 99.75% |
| Fransızca | 98.84% | 99.33% | 98.50% |
| İtalyanca | Yok | 99.82% | Yok |
| Almanca | 99.44% | 99.95% | Yok |
| Portekizce | Yok | 99.83% | 99.70% |
| Rusça | Yok | 98.34% | 99.35% |
| Çince | 99.70% | 99.54% | 98.10% |
Modelimiz modern büyük dil modellerine benzer bir mimariye dayandığından, AI algılama başlığını ince ayarlamadan önce omurgamızın büyük bir çok dilli metin külliyatı üzerinde eğitilmesini sağlamak için büyük ölçekli ön eğitim kullanıyoruz. Ayrıca Rusça ve Çince dahil birçok dili destekleyen bir tokenizer kullanıyoruz.
İnternette kullanılan dillerin çoğunluğunu temsil eden dilleri seçtik.
Giriş metninin dilini tespit etmek için Amazon Comprehend kullanıyoruz. Dil desteklenmiyorsa, tahmin olarak "Desteklenmeyen Dil" sonucunu döndürürüz.
Evet, aktif öğrenme ile çok dilli veri setimizi büyütmeye devam ederken, İngilizce dışındaki dillerde performans iyileştirmeleri içeren güncellemeler yayınlamayı planlıyoruz.
Gelecekte daha fazla dili desteklemeyi planlıyoruz. Desteklenmesini istediğiniz bir dil varsa, lütfen bize bildirin!
Çok dilli AI algılama hakkında daha fazla bilgi için info@pangram.com adresinden bize ulaşın.
