Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin

Yüksek Doğruluklu AI Tarafından Oluşturulan Metin Algılama Teknik Raporu

Bradley Emi ve Max Spero
21 Şubat 2024

Pangram Labs AI tarafından oluşturulan metin sınıflandırıcı için eğitim süreci

Giriş

Pangram Labs olarak, internetin sahte, aldatıcı ve düşük kaliteli içeriklerle dolmasını önlemek için en iyi yapay zeka metin algılama modelini geliştiriyoruz. LLM'lerin mümkün kıldığı bir dünyada, insanların gerçeği tespit etmek için en iyi araçlara sahip olması gerektiğine inanıyoruz ve bu ihtiyacı karşılamak için doğru teknolojiyi sunmak istiyoruz.

Pangram Labs, spam veya sahte içerik olarak ölçeklendirilebilecek AI tarafından oluşturulan metinleri tespit etmek için ciddi bir sınıflandırıcı geliştirmiştir. Modelimiz, piyasadaki alternatiflerden ne kadar daha iyidir? Bu blog yazısında, modelimizin performansına ilişkin kapsamlı bir analiz sunuyoruz ve bunu ilk kez yayınladığımız teknik raporla destekliyoruz.

Bu blog yazısı birkaç konuyu ele alacaktır:

  • AI tarafından üretilen metin tespiti neden önemli bir sorundur?
  • Hangi AI tarafından üretilen içerik dedektörü en iyisidir?
  • Yüksek doğruluk neden önemlidir?
  • Pangram Labs ne tür içerikleri algılayabilir?
  • Pangram Labs bu sorunu nasıl çözmeye yaklaştı?

Metodoloji dahil olmak üzere daha teknik ayrıntılar için, Pangram AI Tarafından Oluşturulan Metin Sınıflandırıcı Teknik Raporumuzu inceleyin.

TL;DR

Genel doğruluk, yanlış pozitif örnekler ve yanlış negatif örnekler dahil olmak üzere temel doğruluk ölçütlerini belirlemek için yaklaşık 2000 belge kullanarak rekabetçi bir karşılaştırma değerlendirmesi gerçekleştirdik.

Our text classifier outperforms academic methods and shows significantly lower error rates in a comprehensive benchmark against other available AI text detection methods. Our model demonstrates 99.85% accuracy with 0.19% false positive rate across thousands of examples across ten different categories of writing and eight commonly used large language models. Other methods fail on more capable LLMs such as GPT-4 (<=75% accuracy) while Pangram Labs sustains 99-100% accuracy across all language models tested.

Genel doğruluk karşılaştırması

AI Tarafından Oluşturulan Metne Giriş

ChatGPT gibi büyük dil modelleri (LLM'ler), yapay zeka yeteneklerinin bir dönüm noktasına ulaşmasıyla 2023 yılında popülerliklerinde patlama yaşadı. Yapay zeka asistanlarını destekleyen LLM'ler, ikna edici bir şekilde insan gibi konuşarak soruları yanıtlayabilir, beyin fırtınası yapabilir ve içerik yazabilir. Bu, bazı iyi sonuçlar doğurdu: bilgi her zamankinden daha erişilebilir hale geldi ve asistanlar, basit görevleri yerine getirerek bize zaman kazandırıyor. Ancak, herkes neredeyse hiç çaba harcamadan ikna edici insan metinleri üretebiliyor ve bunun da kendi dezavantajları var. Spam gönderenler, filtrelenmesi daha zor e-postalar yazabilir. Çevrimiçi pazar satıcıları, dakikalar içinde binlerce gerçekçi görünümlü yorum üretebilir. Kötü niyetli kişiler, sosyal medyaya girip binlerce LLM destekli botla kamuoyunu etkileyebilir.

Ne yazık ki bu toplumsal riskler LLM düzeyinde azaltılamaz - dil modelleri bir isteğin meşru mu yoksa bir spam göndericisi tarafından oluşturulan binlerce istekten biri mi olduğunu anlayamaz. Bu nedenle, insan alanlarını insanlara ait tutmak için uygulama katmanında içerik filtrelerine ihtiyacımız var.

Pangram Labs neden doğruluğa bu kadar önem veriyor?

Bu iş koluyla ilgili pek çok şüpheci görüş duyduk. Sorunun çözülemez olduğu, AI dedektörlerinin "işe yaramadığı"nın kanıtlandığı veya bu sorunu kolayca atlatabileceğiniz gibi. Ya da şu anda mümkün olsa bile, gelecek yıl daha zorlaşacak, AGI ortaya çıktığında ise imkansız hale gelecektir.

Bizim tezimiz biraz farklı. Bu sorunun çözülmesinin sadece mümkün değil, aynı zamanda gerekli olduğuna da inanıyoruz. Ne kadar zor olursa olsun, kullanıcıların kullanabileceği ve güvenebileceği bir şey oluşturmak için kaç saat çalışmamız gerektiği önemli değil. Bizim çalışmamız olmadan, internetin AI spamcıları tarafından istila edilmesi sadece bir zaman meselesi. İnsan sesleri gürültüye boğulacak.

Bizim için sorunun çözülmesini sağlamak, değerlendirme setlerimizin zorluk derecesini sürekli artırmayı gerektirir. İlk değerlendirmelerde %100 doğruluk oranına ulaşmak kolaydı, ancak bunun gerçek dünyadaki doğruluğu yansıtmadığı kısa sürede ortaya çıktı. Daha zor değerlendirmeler oluşturarak, gelişmemizi objektif bir şekilde ölçebiliyoruz. Mevcut benchmarkımızın gerçek dünyadaki spam göndericilerin ortaya koyduklarından biraz daha zor olduğuna ve bu benchmarkın maksimum seviyeye yakın olduğuna inanıyoruz. Yeni rakamlarla geri döndüğümüzde, diğer yöntemler daha da kötüleşmiş gibi görünebilir, ancak gerçekte daha zor bir değerlendirme setiyle geri döneceğiz ve en yetenekli yapay zekalar, gerçekçi görünen metinler oluşturmak için sınırlarına kadar zorlanacak ve hedefimiz yine %99 doğrulukla bunları yakalayabilmek olacak.

Sorun asla tamamen çözülmeyecek, ancak LLM'lerin giderek daha yetenekli hale gelmesiyle geride kalmamak için istikrarlı bir şekilde ilerlememiz gerekiyor. Bu, bizim üstlendiğimiz görevdir ve sonuna kadar sürdüreceğimiz bir çabadır.

AI algılama araçlarının karşılaştırması

Teknik raporumuzda, Pangram Labs'ı iki önde gelen AI algılama aracıyla ve 2023 yılında AI algılama için kullanılan en gelişmiş akademik yöntemle karşılaştırdık.

Karşılaştırıyoruz:

  • Pangram Laboratuvarları
  • GPTZero
  • Özgünlük.ai
  • GPT'yi Algıla

Karşılaştırmamız 1.976 belgeyi içermektedir. Bu belgelerin yarısı insanlar tarafından yazılmış, diğer yarısı ise ChatGPT ve GPT-4 dahil olmak üzere en popüler sekiz LLM tarafından oluşturulmuştur.

Genel doğruluk karşılaştırması

Bu rakamların ne anlama geldiğine dair kısa bir açıklama:

  • Doğruluk: Araç, toplam belgelerin yüzde kaçını doğru sınıflandırdı?
  • Yanlış pozitif oranı: Tüm insan belgelerinden kaç tanesi yanlışlıkla AI olarak sınıflandırıldı?
  • Yanlış negatif oranı: Tüm AI belgelerinden kaç tanesi yanlışlıkla insan olarak sınıflandırıldı?

Yanlış pozitif oranını somut olarak göstermek gerekirse, %9 oranı her 11 insan belgesinden birinin AI olarak işaretleneceği anlamına gelir. %2 yanlış pozitif oranı, her 50 insan belgesinden birinin AI olarak işaretleneceği anlamına gelir. Ve %0,67 oranı, her 150 insan belgesinden birinin AI olarak işaretleneceği anlamına gelir.

Benzer şekilde, %10 yanlış negatif oranı, on AI belgesinden birinin tespit edilmeden geçmesi anlamına gelirken, %1,4 yanlış negatif oranı, yetmiş AI belgesinden birinin tespit edilmeden geçmesi anlamına gelir.

Bu sonuçların etkilerini düşünün. %9 yanlış pozitif oranına sahip bir algılama modeline güvenilemez, aksi takdirde yanlış suçlamalar artar. %10 yanlış negatif oranına sahip bir algılama modeli ise o kadar çok AI spam'ına izin verir ki, herhangi bir saldırı durumunda kullanıcılar yine de spam bombardımanına maruz kalır.

Sonuçları daha derinlemesine inceleme

Benchmarkımız iki farklı eksen üzerinde ayrılmıştır: metin alanı ve kaynak LLM. "Metin alanı" veya sadece "alan", belirli bir yazı kategorisini ifade etmenin bir yoludur. Örneğin, bir ortaokul kompozisyonu, bir bilimsel makaleden çok farklıdır ve bir bilimsel makale de bir e-postadan çok farklıdır. Sonuçları farklı alanlara ayırarak, hangi alanlarda başarılı olduğumuzu ve hangi alanlarda iyileştirme çabalarımızı yoğunlaştırmamız gerektiğini daha kapsamlı bir şekilde görebiliriz.

Metin alanına göre doğruluk

Sonuçlar, Pangram Labs'ın değerlendirilen on alanda da GPTZero ve Originality'yi geride bıraktığını gösteriyor.

Etki alanlarından biri olan e-posta, Pangram Labs'ın eğitim verilerinde herhangi bir e-posta içermediği için özellikle güçlü bir sonuçtur. E-posta alanındaki performansımız, tamamen LLM'nin üretebileceği çoğu yazı kategorisine genelleştirilebilen sağlam bir modelin eğitilmesiyle sağlanmaktadır.

AI belgeleri, kaynağına göre doğru şekilde sınıflandırılmıştır LLM

Kökenine göre bölünme LLM, rakip AI algılama modellerinin daha az yetenekli açık kaynak modellerinde daha iyi performans gösterebileceğini, ancak ChatGPT (gpt-3.5-turbo) üzerinde daha kötü performans gösterdiğini ve OpenAI'nin en yetenekli LLM'si olan GPT-4 üzerinde gerçekten zorlandığını gösteren başka bir hikaye anlatıyor. GPT 3.5 Turbo ve GPT-4 modellerinin birçok sürümünü değerlendirdik, çünkü bunlar en yaygın olarak kullanılan modeller.

GPT-4 metinlerini güvenilir bir şekilde algılayabilen tek model olduğumuzu ve test ettiğimiz diğer tüm modellerde de rakiplerimizden daha iyi performans gösterdiğimizi tespit ettik.

İlginç bir gözlem, rakiplerimizin açık kaynaklı modellerde kapalı kaynaklı GPT ve Gemini modellerinden çok daha iyi performans göstermesidir. Bunun nedeninin, perplexity ve burstiness özelliklerine aşırı güvenilmesi olduğunu varsayıyoruz. Bu özellikler değerli olmakla birlikte, perplexity ve burstiness değerleri yalnızca açık kaynaklı modellerde kesin olarak hesaplanabilir; kapalı kaynaklı modellerde ise yalnızca yaklaşık bir tahmin yapılabilir. Bu durum, derin öğrenme tabanlı yaklaşımımızın değerini göstermektedir. Bu yaklaşım, perplexity gibi kırılgan özelliklere dayanmamakta ve daha ince altta yatan kalıpları öğrenebilmektedir.

Sağlamlık

Sıkça sorulan bir soru şudur: Yeni bir dil modeli piyasaya sürüldüğünde ne olur? Her yeni modelde, çıktılarını algılamak için eğitim yapmanız gerekir mi? Kısaca, hayır. OpenAI, geçtiğimiz haftalarda LLM'lerinin iki yeni sürümünü piyasaya sürdü. Bu yeni LLM'lerde hiç eğitim yapmadan modelimizi değerlendirdik ve hala oldukça iyi sonuçlar aldığımızı gördük!

  • GPT-3.5-Turbo-0125: %99,66 doğruluk
  • GPT-4-0125-Önizleme: %99,18 doğruluk

Bu yeni sürümler, OpenAI tarafından yayınlanan önceki sürümlerle benzerdir. Bu durumda soracağımız bir sonraki soru şudur: Tamamen farklı model ailelerinde nasıl bir performans sergiliyoruz? Bu soruyu yanıtlamak için, sınıflandırıcımızın daha önce hiç görmediği bir dizi açık kaynak model üzerinde modelimizi değerlendirdik.

Pangram Labs tarafından eğitim sırasında görülmeyen açık kaynaklı LLM performansı.

Oldukça harika! Bunun büyük bir kısmı, birçok açık kaynak modelinin Llama ailesinden başlaması veya benzer açık kaynak eğitim setleri kullanmasıyla ilgilidir, ancak bu, her bir açık kaynak modeli üzerinde eğitim yapmaya gerek kalmadan genelleme yapma becerimize güvenmemizi sağlar.

Bununla birlikte, veri boru hattımız, LLM API'nın yayınlanmasından birkaç saat sonra yeni bir eğitim seti oluşturabileceğimiz şekilde tasarlanmıştır - tek engel API hız sınırlamasıdır. LLM'lerin sürekli olarak daha da iyi hale geldiğinin farkındayız ve AGI'ye yaklaştıkça, güncel kalmak ve en gelişmiş AI ajanlarını bile yakalayabilmek giderek daha önemli hale gelecektir.

İngilizce İkinci Dil Olarak

Önceki araştırmalar, ticari LLM dedektörlerinin sürekli olarak ana dili İngilizce olmayan kişilere (ESL veya İkinci Dil Olarak İngilizce) karşı önyargılı olduğunu ortaya koymuştur. Bunu test etmek için araştırmacılar, TOEFL (Yabancı Dil Olarak İngilizce Testi) sınavından alınan 91 denemeyi referans alarak çeşitli dedektörleri test etmişlerdir.

Eğitim setimizdeki 91 TOEFL kompozisyonunu bir kenara ayırdık ve Pangram Labs'ı bu benchmark üzerinde değerlendirdik. ESL için yanlış pozitif oranlarını en aza indirgemek için yaptığımız çalışmalar sayesinde, TOEFL benchmarkında %0 yanlış pozitif oranı elde ettik. Bu, bu benchmarkta yer alan insan kompozisyonlarının hiçbirinin AI olarak yanlış sınıflandırılmadığı anlamına geliyor.

TOEFL karşılaştırması

Pangram Labs'ın yapay zeka algılama yaklaşımı

AI tarafından üretilen içeriği tespit etmek kolay bir iş değildir. Modelimizin doğruluğunu bir üst seviyeye çıkarmak için iki temel yöntem kullanarak, dönüştürücü tabanlı bir mimariye sahip derin öğrenme modelini eğitiyoruz.

Sentetik Aynalar

Eğitim setimizdeki her belge "İnsan" veya "AI" olarak etiketlenmiştir. Makine öğreniminde bu belgelere "örnekler" diyoruz.

Kamuya açık veri kümelerinden eğitim için milyonlarca insan örneği mevcut, ancak buna eşdeğer bir AI veri kümesi yok. Bu sorunu, her insan örneğini bir "Sentetik ayna" ile eşleştirerek çözüyoruz. Sentetik ayna, insan tarafından yazılmış bir belgeyi temel alan, yapay zeka tarafından oluşturulan bir belgeyi tanımlamak için kullandığımız bir terimdir. Aynı konuyla ilgili, aynı uzunlukta bir belge talep ederek LLM'ye komut veriyoruz. Örneklerin bir kısmında, yapay zeka belgelerini daha çeşitlilikli hale getirmek için LLM'nin insan tarafından yazılmış belgenin ilk cümlesiyle başlamasını sağlıyoruz.

Sert Negatif Madencilik

Erken aşamada, modelimizi eğitirken bir sınırla karşılaştık. Daha fazla örnek eklemeyi denedik, ancak sonunda modelin "doygun" olduğunu fark ettik - daha fazla eğitim örneği modeli daha da iyileştirmedi.

Ölçeklendirme yasaları deneyi

Bu ilk modelin performansı tatmin edici değildi - birçok alanda hala %1'in üzerinde yanlış pozitif oranına sahipti. Bulduğumuz sonuç, sadece daha fazla örneğe ihtiyacımız olmadığı, daha zor örnekler gerektiğiydi.

İlk modelimizi kullanarak açık veri setlerinde on milyonlarca insan örneğini taradık ve modelimizin yanlış sınıflandırdığı en zor belgeleri aradık. Ardından bu belgeler için sentetik yansımalar oluşturduk ve bunları eğitim setimize ekledik. Son olarak, modeli yeniden eğittik ve süreci tekrarladık.

Pangram Labs AI tarafından oluşturulan metin sınıflandırıcı için eğitim süreci

Bu eğitim yöntemi sayesinde, yanlış pozitif oranlarımızı 100 kat azaltabildik ve gurur duyduğumuz bir model sunabildik.

Etki alanına göre yanlış pozitif oranları tablosu

Bu yöntemi sentetik aynalarla sert negatif madencilik olarak adlandırıyoruz ve teknik raporumuzda bu süreci daha ayrıntılı olarak ele alıyoruz.

Pangram Labs için bundan sonra ne var?

Elbette, yolculuğumuzun sonu bu değil. Performansı bir üst seviyeye taşımak için bir dizi yeni fikrimiz var. Yanlış pozitif oranını yüzde birin binde biri düzeyinde daha iyi takip edebilmek için değerlendirme setlerimizi geliştirmeye devam edeceğiz. Modelimizi İngilizce dışındaki dillerde de çalışacak şekilde genişletmeyi ve başarısızlık durumlarımızı anlamaya ve yakalamaya çalışmayı planlıyoruz. Bir sonraki adımlarımızı takipte kalın!

Sorularınız veya yorumlarınız mı var? info@pangram.com adresinden bize ulaşın!

Haber bültenimize abone olun
AI algılama araştırmalarımızla ilgili aylık güncellemeleri paylaşıyoruz.