Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
Çevrimiçi olarak AI dedektörlerinin nasıl çalıştığını araştırdığınızda, genellikle "perplexity" ve "burstiness" terimlerini kullanan birçok kaynak göreceksiniz. Bu terimler ne anlama geliyor ve neden AI tarafından üretilen içeriği tespit etmek için işe yaramıyorlar? Bugün perplexity ve burstiness'in ne olduğunu açıklamak ve bunların AI tarafından üretilen yazıları tespit etmek için neden uygun olmadığını açıklamak istiyorum. Ayrıca, bunların neden işe yaramadığını, perplexity ve burstiness tabanlı dedektörlerin neden Bağımsızlık Bildirgesini AI tarafından üretilmiş olarak yanlış bir şekilde gösterdiğini ve bu dedektörlerin neden ana dili İngilizce olmayanlara karşı önyargılı olduğunu da anlayacağız. Haydi başlayalım!
Perplexity'nin ne olduğu ve ne işe yaradığı hakkında genel bir fikir edinmek için, öncelikle perplexity'nin kesin olmayan, teknik olmayan bir tanımından başlayacağız. Perplexity hakkında daha fazla bilgi için, bu iki dakikalık açıklayıcı makaleyi çok yararlı buldum.
Perplexity, belirli bir dil modeli veya LLM perspektifinden bakıldığında, bir metindeki her kelimenin ne kadar beklenmedik veya şaşırtıcı olduğudur.
Örneğin, burada iki cümle var. Gösterim amacıyla, her cümlenin son kelimesine odaklanalım. İlk örnekte, son kelimenin karmaşıklık düzeyi düşükken, ikinci örnekte son kelimenin karmaşıklık düzeyi yüksektir.
Düşük karmaşıklık:
Bugün öğle yemeğinde bir kase *çorba* yedim.
Yüksek karmaşıklık:
Bugün öğle yemeğinde bir kase *örümcek* yedim.
İkinci cümlenin karmaşıklık derecesinin yüksek olmasının nedeni, bir dil modelinin eğitim veri setinde insanların örümcekleri kasede yedikleri örnekleri çok nadiren görmesidir. Bu nedenle, cümlenin "çorba", "sandviç" veya "salata" gibi bir kelimeyle değil de "örümcek" ile bitmesi dil modeli için çok şaşırtıcıdır.
Perplexity, "perplexed" kelimesiyle aynı kökten gelir ve "kafası karışık" veya "şaşkın" anlamına gelir. Perplexity'yi dil modelinin kafasının karışması olarak düşünmek faydalıdır: eğitim sürecinde okuduğu ve öğrendiği şeylere kıyasla tanıdık olmayan veya beklenmedik bir şey gördüğünde, dil modelinin tamamlama işlemiyle kafasının karıştığını veya şaşırdığını düşünebiliriz.
Tamam, harika, peki ya patlama oranı? Patlama oranı, bir belge boyunca karmaşıklıkta meydana gelen değişikliktir. Belge boyunca bazı şaşırtıcı kelimeler ve ifadeler serpiştirilmişse, patlama oranının yüksek olduğunu söyleyebiliriz.
Ne yazık ki, çoğu ticari dedektör (Pangram hariç) metodolojileri konusunda şeffaf değildir, ancak açıklamalarından anlaşıldığı kadarıyla, insan metni AI tarafından üretilen metne göre daha yüksek karmaşıklık ve daha yüksek patlama oranına sahipken, AI tarafından üretilen metin daha düşük olasılık ve daha düşük patlama oranına sahiptir.
Bunun görselleştirmesini aşağıda görebiliriz! Huggingface'den GPT-2 modelini indirdim ve iki belgedeki tüm metinlerin karmaşıklığını hesapladım: bir dizi insan restoran yorumu ve bir dizi AI tarafından oluşturulan yorum. Ardından, düşük karmaşıklığa sahip metinleri mavi, yüksek karmaşıklığa sahip metinleri kırmızı ile vurguladım.
AI ve insan metinlerini karşılaştıran karmaşıklık görselleştirmesi
Gördüğünüz gibi, AI tarafından oluşturulan metin tamamen koyu mavi renkte ve bu da tekdüze düşük karmaşıklık değerlerini gösteriyor. İnsan tarafından oluşturulan metin ise çoğunlukla mavi renkte, ancak içinde kırmızı renkli sivri uçlar var. Buna yüksek patlama oranı diyoruz.
Bu fikir, şaşkınlık ve patlama dedektörlerine ilham vermektedir. Sadece ilk ticari AI dedektörlerinin bazıları bu fikre dayalı olmakla kalmayıp, aynı zamanda DetectGPT ve Binoculars gibi bazı akademik literatüre de ilham kaynağı olmuştur.
Tamamen adil olmak gerekirse, bu karmaşıklık ve ani artış dedektörleri bazen işe yarıyor! Ancak, yanlış pozitif AI algılamasının öğretmen ile öğrenci arasındaki güveni zedeleyebileceği veya daha da kötüsü, bir davada yanlış kanıtlar oluşturabileceği sınıf gibi, hataların önlenmesi gereken yüksek riskli ortamlarda bu dedektörlerin güvenilir bir şekilde çalışabileceğine inanmıyoruz.
LLM'lerin nasıl oluşturulduğunu bilmeyenler için, LLM'ler chatbot olarak kullanıma sunulmadan önce, önce "eğitim" adı verilen bir prosedürden geçmeleri gerekir. Eğitim sırasında, dil modeli milyarlarca metni inceler ve "eğitim seti" olarak adlandırılan temel dilbilimsel kalıpları öğrenir.
Eğitim prosedürünün kesin mekanik detayları bu blog yazısının kapsamı dışındadır, ancak kritik bir detay, optimizasyon sürecinde LLM'nin eğitim seti belgelerindeki karmaşıklığı en aza indirgemek için doğrudan teşvik edilmesidir! Başka bir deyişle, model zamanla, eğitim prosedüründe tekrar tekrar gördüğü metin parçalarının mümkün olduğunca az karmaşıklığa sahip olması gerektiğini öğrenir.
Bu neden sorun oluyor?
Model, eğitim seti belgelerini düşük karmaşıklıkta tutması istendiği için, karmaşıklık ve patlama algılayıcıları, eğitim seti belgeleri aslında insan tarafından yazılmış olsa bile, yaygın eğitim seti belgelerini AI olarak sınıflandırır!
Bu nedenle, perplexity tabanlı AI dedektörleri Bağımsızlık Bildirgesini AI tarafından üretilmiş olarak sınıflandırır: Bağımsızlık Bildirgesi, sayısız ders kitabında ve internetteki makalelerde yeniden üretilmiş olan ünlü bir tarihi belge olduğu için, AI eğitim setlerinde çok sık karşımıza çıkar. Ve metin, eğitim sırasında her görüldüğünde tamamen aynı olduğu için, model Bağımsızlık Bildirgesini gördüğünde onu ezberleyebilir ve ardından tüm simgelere otomatik olarak çok düşük bir şaşkınlık atayabilir, bu da patlamayı da gerçekten düşük hale getirir.
Yukarıdaki görselleştirmeyi Bağımsızlık Bildirgesi üzerinde de uyguladım ve aynı AI imzası ile karşılaştık: her kelimenin düşük karmaşıklığa sahip olduğunu gösteren, baştan sona derin ve tutarlı bir mavi renk. Karmaşıklık ve patlama temelli bir algılayıcı açısından, Bağımsızlık Bildirgesi AI tarafından üretilen içerikten tamamen ayırt edilemez.
İlginç bir şekilde, Bağımsızlık Bildirgesi'nin ilk cümlesinin diğer cümlelerden daha koyu mavi ve daha düşük karmaşıklıkta olduğunu fark ediyoruz. Bunun nedeni, ilk cümlenin metnin en çok alıntılanan kısmı olması ve GPT-2 eğitim setinde en sık görünmesidir.
Bağımsızlık Bildirgesinin karmaşıklık görselleştirmesi
Benzer şekilde, LLM eğitim verilerinin diğer yaygın kaynaklarında da, karmaşıklık ve patlama tespit cihazları ile yanlış pozitif oranlarının yükseldiğini görüyoruz. Wikipedia, yüksek kalitesi ve kısıtlayıcı olmayan lisansı nedeniyle çok yaygın bir eğitim veri setidir: bu nedenle, dil modelleri Wikipedia makalelerindeki karmaşıklığı azaltmak için doğrudan optimize edildiğinden, AI tarafından üretilmiş olarak yanlış tahmin edilmesi son derece yaygındır.
Bu sorun, yapay zeka gelişmeye ve daha da ilerlemeye devam ettikçe daha da kötüleşiyor, çünkü en yeni dil modelleri son derece veri açgözlü: OpenAI, Google ve Anthropic'in tarayıcıları, siz bu makaleyi okurken interneti öfkeyle tarıyor ve dil modeli eğitimi için veri toplamaya devam ediyor. Yayıncılar ve web sitesi sahipleri, bu tarayıcıların LLM eğitimi için web sitelerini taramasına izin vermenin, içeriklerinin gelecekte AI tarafından üretilmiş olarak yanlış sınıflandırılması anlamına gelebileceğinden endişelenmeli mi? Verilerini OpenAI'ye lisanslamayı düşünen şirketler, LLM'ler bu verileri aldıktan sonra, bu verilerin AI tarafından yanlış tahmin edilme riskini de göz önünde bulundurmalı mı? Biz bunu tamamen kabul edilemez bir başarısızlık vakası olarak görüyoruz ve bu durum zamanla daha da kötüleşiyor.
Perplexity ve burstiness'i tespit için ölçüt olarak kullanmanın bir başka sorunu da, bunların belirli bir dil modeline göre değişken olmasıdır. Örneğin GPT için beklenen bir şey, Claude için beklenmeyebilir. Yeni modeller çıktığında, bunların perplexity değerleri de farklıdır.
Sözde "kara kutu" perplexity tabanlı dedektörler, gerçek perplexity'yi ölçmek için bir dil modeli seçmelidir. Ancak, bu dil modelinin perplexity'si jeneratörün perplexity'sinden farklı olduğunda, son derece yanlış sonuçlar elde edersiniz ve bu sorun, yeni model sürümleriyle daha da karmaşık hale gelir.
Kapalı kaynak sağlayıcılar her zaman her bir tokenin olasılıklarını sunmazlar, bu nedenle ChatGPT, Gemini ve Claude gibi kapalı kaynaklı ticari modeller için perplexity hesaplayamazsınız. En iyi ihtimalle, perplexity'yi ölçmek için açık kaynaklı bir model kullanabilirsiniz, ancak bu da Eksiklik 2 ile aynı sorunlara yol açar.
2023 yılında Stanford Üniversitesi'nde 91 TOEFL kompozisyonu üzerinde yapılan bir araştırma, yapay zeka algılama sistemlerinin ana dili İngilizce olmayan kişilere karşı önyargılı olduğu yönünde bir görüş ortaya koydu. Pangram, ana dili İngilizce olmayan metinleri kapsamlı bir şekilde karşılaştırmalı değerlendirmeye tabi tutarak bunları eğitim setimize dahil ediyor ve böylece modelin bu metinleri tanıyıp algılamasını sağlıyor. Ancak, karmaşıklık temelli algılayıcılar, ana dili İngilizce olmayan metinlerde gerçekten de yüksek bir yanlış pozitif oranına sahip.
Bunun nedeni, İngilizce öğrenenlerin yazdığı metinlerin genel olarak daha az karmaşık ve daha az patlamalı olmasıdır. Bunun bir tesadüf olmadığını düşünüyoruz: bu durum, dil öğrenme sürecinde öğrencinin kelime dağarcığının önemli ölçüde daha sınırlı olması ve öğrencinin dil modeli için sıra dışı veya şaşırtıcı olan karmaşık cümle yapıları oluşturamaması nedeniyle ortaya çıkmaktadır. Dilbilgisi açısından doğru olan, karmaşık ve ani bir şekilde yazmayı öğrenmenin, dil deneyiminden kaynaklanan ileri düzey bir dil becerisi olduğunu savunuyoruz.
İngilizceyi ana dili olarak konuşmayanlar ve buna bağlı olarak nörolojik çeşitlilik gösteren öğrenciler veya engelli öğrenciler, kafa karışıklığına dayalı AI dedektörleri tarafından yakalanmaya daha yatkındır.
Perplexity tabanlı dedektörlerin en büyük eksikliğinin ne olduğunu düşünüyoruz ve Pangram olarak neden bunun yerine derin öğrenme tabanlı bir yaklaşımı tercih ettiğimizi açıklayalım: Perplexity tabanlı dedektörler, veri ve hesaplama ölçeği ile kendi kendilerini geliştiremezler.
Bu ne anlama geliyor? Pangram, aktif öğrenme algoritmamız sayesinde insan metinleri konusunda daha fazla deneyim kazandıkça, giderek daha iyi hale geliyor. Bu sayede, yanlış pozitif oranımızı %2'den %1'e, %1'den %0,1'e ve şimdi de %0,01'e düşürdük. Karmaşıklık tabanlı dedektörler, daha fazla veri görerek gelişemezler.
DetectGPT: Olasılık Eğriliği Kullanarak Sıfır Atış Makine Tarafından Üretilen Metin Algılama, mutlak karmaşıklık değerleri yerine yerel karmaşıklık manzarasını inceleyerek insan ve yapay zeka yazımlarını ayırt etmeye yönelik bir makaledir.
Dürbünle LLM'leri Tespit Etmek: Makine Tarafından Oluşturulan Metinlerin Sıfır Atış Tespiti, temel karmaşıklık tespitini iyileştirmek için "çapraz karmaşıklık" adı verilen yeni bir ölçüt kullanır.
Pangram'ın teknik raporu, derin aktif öğrenmeye dayalı olarak AI tarafından üretilen metinleri tespit etmek için geliştirdiğimiz alternatif çözümümüzü daha ayrıntılı olarak ele almaktadır.
AI tarafından üretilen yazılarla ilişkili bir istatistik hesaplamak ile AI tarafından üretilen yazıları güvenilir bir şekilde tespit edebilen üretim sınıfı bir sistem oluşturmak arasında büyük bir fark vardır. Perplexity tabanlı dedektörler, insan yazısını insan yapan ve AI yazısını AI yapan önemli bir yönü yakalar, ancak bu makalede açıklanan nedenlerden dolayı, üretim uygulamaları için yeterince düşük bir yanlış pozitif oranı korurken AI tarafından üretilen yazıları güvenilir bir şekilde tespit etmek için perplexity tabanlı bir dedektör kullanamazsınız.
Yanlış pozitif sonuçların önlenmesinin kritik öneme sahip olduğu eğitim gibi ortamlarda, daha fazla araştırmanın karmaşıklık ve patlama oranları veya metrik tabanlı yöntemlerden uzaklaşarak derin öğrenme tabanlı yöntemlere doğru ilerlemesini umuyoruz.
Bu, Pangram'ın AI tarafından üretilen metinleri tespit etmek için perplexity ve burstiness kullanmamayı tercih edip, bunun yerine ölçeklenebilir güvenilir yöntemlere odaklanmasının nedenini açıklamaya yardımcı olur umarız.
