Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
İki ay önce, Pangram ilk çok dilli AI algılama modelini piyasaya sürdü. Şimdi, bir güncelleme duyurmaya hazırız! Pangram artık İnternet'teki en popüler 20 dili resmi olarak destekliyor ve gayri resmi olarak daha birçok dilde de iyi performans gösteriyor. Özellikle Arapça, Japonca, Korece ve Hintçe dillerinde çok güçlü ve büyük ölçüde iyileştirilmiş bir performans gözlemliyoruz.
Resmi destek setimizde her dil için yaklaşık 2.000 belgeyi değerlendirdik. İnsan tarafı, gerçek incelemeler, haber makaleleri ve Wikipedia makalelerinden oluşuyor. AI tarafı ise GPT-4o'ya çeşitli uzunluk, stil ve konularda yazmasını istediğimiz bir dizi deneme, haber makalesi ve blog yazısından oluşuyor.
| Dil | Doğruluk | Yanlış Pozitif Oranı | Yanlış Negatif Oran |
|---|---|---|---|
| Arapça | 99.95% | 0.10% | 0.00% |
| Çekçe | 99.95% | 0.00% | 0.11% |
| Almanca | 99.85% | 0.00% | 0.32% |
| Yunanca | 99.90% | 0.00% | 0.21% |
| İspanyolca | 100.00% | 0.00% | 0.00% |
| Farsça | 100.00% | 0.00% | 0.00% |
| Fransızca | 100.00% | 0.00% | 0.00% |
| Hintçe | 99.79% | 0.00% | 0.42% |
| Macarca | 99.49% | 0.10% | 0.95% |
| İtalyanca | 100.00% | 0.00% | 0.00% |
| Japonca | 100.00% | 0.00% | 0.00% |
| Hollandaca | 99.95% | 0.10% | 0.00% |
| Lehçe | 100.00% | 0.00% | 0.00% |
| Portekizce | 100.00% | 0.00% | 0.00% |
| Romence | 99.95% | 0.10% | 0.00% |
| Rusça | 100.00% | 0.00% | 0.00% |
| İsveççe | 99.95% | 0.00% | 0.11% |
| Türkçe | 99.90% | 0.00% | 0.21% |
| Ukraynalı | 99.95% | 0.00% | 0.11% |
| Urduca | 99.44% | 0.00% | 1.16% |
| Vietnamca | 99.95% | 0.00% | 0.11% |
| Çince | 99.95% | 0.00% | 0.11% |
Çok dilli desteğimizi iyileştirmek için yaptığımız önemli değişiklikler şunlardır:
İnternetteki en popüler 20 dile odaklanan web ölçeğinde verilere karşı aktif öğrenme veri kampanyası yürüttük.
İngilizce dışındaki dilleri daha iyi desteklemek için tokenizer'ı değiştirdik.
Temel modelin ve LoRA adaptörlerinin parametre sayısını artırdık.
Eğitimden önce, veri setimizin rastgele bir kısmını makine çevirisi yapmak için veri artırma uyguladık.
Eğitim setinde Doğu Asya dillerinin yanlışlıkla yetersiz temsil edilmesine neden olan kelime sayma hatasını düzelttik.
Son derece düşük yanlış pozitif oranlarına sahip modeller oluşturma sürecimizin temelini aktif öğrenme oluşturmaktadır: Basitçe ifade etmek gerekirse, 2022 öncesine ait İnternet'i, modelimizin düşük performans gösterdiği örnekler (ör. yanlış pozitifler) için tarıyoruz, bu örnekleri eğitim setimize ekliyoruz, yeniden eğitim veriyoruz ve bu süreci tekrarlıyoruz. Bu algoritmayı teknik raporumuzda ayrıntılı olarak açıklıyoruz.
Aktif öğrenme yaklaşımımızı, web üzerindeki bazı büyük çok dilli veri kümelerine uygulayarak, mevcut modelimizin zorlandığı çok dilli metinleri bulabilir ve ardından bu verileri, sentetik aynalar oluşturmak için geniş komut istemleri kütüphanemizle birlikte yinelemek için kullanabiliriz: Bulduğumuz yanlış pozitiflerle benzer görünen AI metni. İnternetteki en popüler 20 dile odaklanırken, veri akışımızdan dil filtreleme adımını kaldırıyoruz: yani, tüm dillerdeki metinler, sert negatif madenciliğe ve eğitim setimize dahil edilmeye uygundur.
Aktif öğrenme yaklaşımımızın avantajlarından biri, modelimizin doğruluğuna göre dillerin dağılımını otomatik olarak yeniden dengelemesidir. Kaynakları az olan diller çevrimiçi ortamda yeterince temsil edilmez, ancak bu sınıf dengesizliği nedeniyle ilk modelimiz başlangıçta kaynakları az olan dillerde düşük performans gösterir ve bu da nadir dillerden daha fazla metnin zorlu negatif madencilik çalışmasında ortaya çıkmasına neden olur. Aktif öğrenme süreci boyunca, İngilizce, İspanyolca ve Çince gibi yüksek kaynaklı dillerden gelen verilerin eğitim setimizdeki oranının giderek azaldığını ve daha az yaygın dillerin oranının arttığını görüyoruz. Bunun, çok dilli model eğitiminin doğal dengesiz veri dağılımına nispeten zarif bir çözüm olduğunu düşünüyoruz. Aktif öğrenme algoritmamız sayesinde, model kendisi için daha fazla görmesi gereken dillerdeki verileri seçebilmektedir.
Giriş alanında çok dilli metinleri daha iyi desteklemek için, sınıflandırıcıyı oluşturmak için kullandığımız temel LLM'nin İngilizce dışındaki birçok dilde de akıcı olduğunu doğrulamak istedik. Veri setimizde çeşitli LLM omurgaları ve tokenizer'ları tarayarak, İngilizce dışındaki birçok dilde genel olarak en iyi performansı göstereni bulduk. Çok dilli benchmark'larda gösterilen performansın, omurganın AI algılama görevimizde ne kadar iyi performans göstereceği ile güçlü bir korelasyon göstermediğini gördük: başka bir deyişle, temel model diğer dillerde akıl yürütme görevlerini çözüp soruları yanıtlayabilse bile, çok dilli AI algılamaya beceri aktarımının etkinliği son derece büyük farklılıklar gösteriyor.
Ayrıca, eğittiğimiz ilk modellerimizin yeni çok dilli dağılıma yetersiz kaldığını ve başlangıçta daha yüksek bir eğitim kaybı gözlemlediğimizi tespit ettik. Bu amaçla, LoRA adaptörlerimizdeki temel model boyutunu ve parametre sayısını artırdık ve modeli daha fazla adım için eğittik. (Aktif öğrenme / yüksek veri rejiminde olduğumuz için, neredeyse hiçbir zaman 1 dönemden daha uzun süre eğitim yapmıyoruz. Bu durumda, sadece dönemin boyutunu genişletmemiz gerekti!)
Aktif öğrenme ile bile, İngilizce dışındaki dillerdeki verilerin çeşitliliği, çevrimiçi İngilizce verilerin çeşitliliği ve hacminden belirgin şekilde daha düşüktür ve bunu, eğitim setindeki dil dağılımını yeniden dengeleyerek tamamen düzeltemeyiz. Bunu kabaca ifade etmek gerekirse, değerli olan bazı İngilizce veriler, diğer dillerde mevcut değildir veya bu dillerde karşılığı yoktur. Bu nedenle, veri setimizin küçük bir kısmına rastgele bir makine çevirisi artırımı uygulamaya karar verdik (bizim durumumuzda Amazon Translate kullandık).
LLM eğitiminde eğitim setine makine çevirisi artırmaları uygulamak standart bir uygulama olmasa da, makine çevirisi verilerinin genellikle doğal olmaması ve "çeviri dili" sorunundan muzdarip olması nedeniyle, bizim durumumuzda, üretken bir model eğitmediğimiz için, bu artırmanın çıktı kalitesini etkilemediği görülüyor ve bu artırmayı uyguladıktan sonra metriklerimizde iyileşmeler olduğunu fark ettik.
İspanyolca'yı, daha önce Pangram Text tarafından desteklenen, ancak şimdi çok daha geliştirilmiş olan yüksek kaynaklı bir dilin karakteristik bir örneği olarak alıyoruz. Çeşitli alanlarda yanlış pozitif oranını ölçüyoruz.
| Veri kümesi | Yanlış Pozitif Oranı (Önce) | Yanlış Pozitif Oranı (Sonrası) | Örnek Sayısı |
|---|---|---|---|
| İspanyolca Amazon yorumları | 0.09% | 0% | 20,000 |
| Wikilingua (WikiHow makale metni) | 3.17% | 0.14% | 113,000 |
| XL-SUM (İspanyolca haber makaleleri) | 0.08% | 0% | 3,800 |
| İspanyolca Vikipedi | 0.29% | 0.04% | 67,000 |
| İspanyol CulturaX | 0.22% | 0.01% | 1,800,000 |
| El ile seçtiğimiz İspanyolca blog yazıları | 0% | 0% | 60 |
Ayrıca, çeşitli büyük dil modelleri için yanlış negatif oranı (AI tarafından üretilen metnin yanlış bir şekilde insan tarafından yazılmış olarak sınıflandırılma oranı) ölçtük. Bu deneyde, LLM'lerin çeşitli uzunluk ve tarzlarda denemeler, blog yazıları ve haber makaleleri üretmesi için bir dizi komut listesi oluşturduk ve ardından bu komutları İspanyolca'ya çevirdik. LLM'ler çok dillidir, bu nedenle komutlara İspanyolca olarak yanıt verirler.
| Model | Yanlış Negatif Oranı (Öncesi) | Yanlış Negatif Oranı (Sonrası) | Örnek Sayısı |
|---|---|---|---|
| GPT-4o | 2.1% | 0% | 1,400 |
| Claude 3.5 Sonnet | 0.7% | 0% | 1,400 |
| Claude 3 Opus | 1.05% | 0% | 1,400 |
| İkizler 1.5 Pro | 2.85% | 0% | 1,400 |
Gördüğümüz gibi, güncellenmiş modelimiz test edilen tüm LLM'lerde mükemmel algılama performansı sergiliyor ve önceki versiyonumuza göre önemli ölçüde iyileştirme sağlıyor.
Geliştirmeye en çok odaklandığımız iki dil, dünyada yaygın olarak konuşulmasına rağmen internette aslında daha az yaygın olan Arapça ve Japonca'dır.
| Veri kümesi | Arapça Yanlış Pozitif Oranı | Japonca Yanlış Pozitif Oranı | Arapça Örnekler | Japonca Örnekler |
|---|---|---|---|---|
| Amazon Yorumları | 0% | 0% | Yok | 20,000 |
| AR-AES (Arapça öğrenci yazısı) | 0% | Yok | 2,000 | Yok |
| Wikilingua (WikiHow makale metni) | 0.58% | 0.55% | 29,000 | 12,000 |
| XL-SUM (yerel dilde haber makaleleri) | 0% | 0% | 4,000 | 733 |
| Vikipedi | 0.09% | 0.009% | 31,000 | 96,000 |
| CulturaX | 0.08% | 0.21% | 1,785,000 | 1,409,000 |
| El ile derlediğimiz blog gönderileri | 0% | 0% | 60 | 60 |
Daha önce bu iki dili desteklemiyorduk, bu nedenle yanlış negatif oranları son derece yüksekti. Artık AI tarafından üretilen Arapça ve Japonca metinleri çok iyi bir şekilde tahmin edebiliyoruz.
| Model | Arapça FNR | Japonca FNR |
|---|---|---|
| GPT-4o | 0% | 0% |
| Claude 3.5 Sonnet | 0% | 0% |
| Claude 3 Opus | 0% | 0% |
| İkizler 1.5 Pro | 0% | 0.21% |
Gördüğümüz gibi, güncellenmiş modelimiz hem Arapça hem de Japonca için test edilen tüm LLM'lerde neredeyse mükemmel bir algılama başarısı elde ediyor ve Japonca Gemini 1.5 Pro için sadece %0,21'lik hafif bir yanlış negatif oranı var.
Tam dil karşılaştırma sonuçları talep üzerine temin edilebilir.
Performansımız yerel web metinlerinde güçlü olsa da, modelimiz bazen "çeviri dili"ni, yani kötü çevrilmiş veya doğal olmayan metinleri tespit etmekte zorlanıyor. Daha da kötüsü, birçok kişi artık ChatGPT gibi LLM'leri doğrudan çeviri görevleri için kullanıyor. LLM ile çevrilmiş metinler insan veya AI olarak sınıflandırılmalı mı? Bu, çevirinin ağırlığına ve ayrıca aşağı akış uygulama kullanım durumuna bağlıdır. Bir İspanyolca öğretmeni, ödevlerde makine çevirisini akademik dürüstlüğe aykırı bulabilir, ancak bir yayıncı, kalite kontrol sürecinden geçen çeviri çalışmalarını kabul etmek isteyebilir. Pangram, çevrilmiş metni insan ve yapay zeka arasında bir yerde bulunan "üçüncü bir modalite" olarak anlamaya ve kullanıcılarımıza daha fazla bilgi sunmaya aktif olarak çalışmaktadır. Böylece, modelimizin sonraki aşamadaki tüketicileri kendileri için doğru olanı seçebilirler.
Başka sorunuz mu var? info@pangram.com adresinden bize ulaşın!
