Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin

Pangram Metin AI Dedektörü artık çok dillidir!

Bradley Emi
1 Temmuz 2024

Fotoğraf: Valentin Antonucci.

Amiral gemisi AI algılama modelimiz Pangram Text'e yönelik önemli bir güncellemeyi duyurmaktan heyecan duyuyoruz. Pangram Text artık İspanyolca, Fransızca, İtalyanca, Portekizce, Almanca, Rusça ve Mandarin Çincesinde AI tarafından üretilen metinleri, İngilizce yazılmış metinlerle aynı sektör lideri doğrulukla algılayabiliyor. Çevrimiçi platformları AI spam'lerinden korumak için yeni çok dilli modelimizi hemen kullanıma sunuyoruz.

Karşılaştırmalı değerlendirme

Modelimizin İngilizce dışındaki dillerde doğruluğunu test etmek için, farklı alanlardan 3 büyük ve çeşitli çok dilli metin koleksiyonu kullanıyoruz: Amazon çok dilli yorumları, Wikipedia ve XLSum (BBC News International).

Benchmark'ın insan tarafı için, akıl sağlığı kontrol filtrelerimizden geçen rastgele belgeleri örnekliyoruz. Benchmark'ın AI tarafı için ise GPT-3.5, GPT-4 ve GPT-4o'nun bir karışımını kullanıyoruz. İlk olarak, LLM'den gerçek belgeyi özetlemesini istiyoruz, örneğin "Bu inceleme ne hakkında?" Ardından, özet verilen bir inceleme, makale veya haber parçası oluşturmasını istiyoruz. Benchmark'ı bu şekilde oluşturmak, etiket gürültüsü olasılığını ortadan kaldırmanın yanı sıra, insan ve AI veri dağılımlarının birbirine olabildiğince benzer olmasını sağlar.

DilAmazon Yorumlarının DoğruluğuWikipedia DoğruluğuXLSum (BBC News) Doğruluk
İspanyolca99.59%99.75%99.75%
Fransızca98.84%99.33%98.50%
İtalyancaYok99.82%Yok
Almanca99.44%99.95%Yok
PortekizceYok99.83%99.70%
RusçaYok98.34%99.35%
Çince99.70%99.54%98.10%

Sıkça Sorulan Sorular

  • Bu dilleri desteklemek için modeli nasıl güncellediniz?

Modelimiz modern büyük dil modellerine benzer bir mimariye dayandığından, AI algılama başlığını ince ayarlamadan önce omurgamızın büyük bir çok dilli metin külliyatı üzerinde eğitilmesini sağlamak için büyük ölçekli ön eğitim kullanıyoruz. Ayrıca Rusça ve Çince dahil birçok dili destekleyen bir tokenizer kullanıyoruz.

  • Neden bu dilleri seçtiniz?

İnternette kullanılan dillerin çoğunluğunu temsil eden dilleri seçtik.

  • Desteklenmeyen bir dilde metin gönderirsem ne olur?

Giriş metninin dilini tespit etmek için Amazon Comprehend kullanıyoruz. Dil desteklenmiyorsa, tahmin olarak "Desteklenmeyen Dil" sonucunu döndürürüz.

  • Model zamanla gelişecek mi?

Evet, aktif öğrenme ile çok dilli veri setimizi büyütmeye devam ederken, İngilizce dışındaki dillerde performans iyileştirmeleri içeren güncellemeler yayınlamayı planlıyoruz.

  • Diğer diller ne durumda?

Gelecekte daha fazla dili desteklemeyi planlıyoruz. Desteklenmesini istediğiniz bir dil varsa, lütfen bize bildirin!

Çok dilli AI algılama hakkında daha fazla bilgi için info@pangram.com adresinden bize ulaşın.

Haber bültenimize abone olun
AI algılama araştırmalarımızla ilgili aylık güncellemeleri paylaşıyoruz.