Önemli noktalar:
- LLM'ler, AI algılama araçlarının insan tarafından mı yoksa AI tarafından mı üretildiğini belirlemesine olanak tanıyan belirli kalıplar sergiler.
- Eski dedektörler patlama ve karmaşıklığa dayanıyordu, ancak bunlar güvenilir değildi. Yeni dedektörler çok daha iyi çalışıyor ve daha büyük veri setlerine ve aktif öğrenmeye dayanıyor.
- Bir dedektör seçerken, kullanıcılar hangi yanlış pozitif ve yanlış negatif oranlarının kendileri için uygun olduğunu belirlemelidir. Ayrıca, bir araç seçmeden önce intihal kontrolü veya diğer özelliklere ihtiyaçları olup olmadığını da belirlemelidirler.
- AI algılama konusunda eğitim almamış insanlar bu konuda pek başarılı değildir. Ancak, AI tarafından üretilen metinlere düzenli olarak maruz kalan veya bu konuda eğitim almış kişiler, AI içeriğini eğitimsiz kişilere göre daha iyi tanımlayabilir. Bu algılama, yazılımla birleştirildiğinde çok iyi sonuçlar verebilir.
AI dedektörleri nedir?
AI tespit edilebilir. Bu sihir değil, arkasında çok fazla araştırma olan bir şeydir. AI tarafından üretilen içeriğin akademi, medya ve iş dünyasında giderek yaygınlaştığı bir çağda, insan ve makine tarafından yazılmış metinleri ayırt etme becerisi kritik bir yetenektir. AI, eğitimli bir göz veya yeterince iyi bir otomatik algılama yazılımı tarafından tespit edilebilen dilbilimsel, stilistik ve anlamsal seçimler yapar. Bunun nedeni, AI'nın neden bu şekilde konuştuğunu ve onu tespit etmek için kullanabileceğimiz kalıpların neler olduğunu anlayabilmemizdir.
Büyük Dil Modelleri Nasıl Çalışır?
AI algılama yazılımının nasıl çalıştığından bahsetmeden önce, yapay zeka modellerinin olasılık dağılımları olduğunu anlamak önemlidir. ChatGPT gibi Büyük Dil Modeli (LLM), bunun çok karmaşık bir versiyonudur ve bir dizideki bir sonraki en olası kelimeyi veya "token"ı sürekli olarak tahmin eder. Bu olasılık dağılımları, genellikle kamuya açık internetin önemli bir bölümünü kapsayan büyük miktarda veriden öğrenilir.
Sıkça duyulan bir soru şudur: "AI dil modelleri tüm insan yazımlarının ortalaması mıdır?" Cevap açıkça hayırdır. Dil modelleri, tüm insanların söylediklerinin ortalamasını almaz. Birincisi, dil modelleri oldukça kendine özgü seçimler yapar. Ayrıca, eğitim veri setleri ve yaratıcılarının önyargıları nedeniyle oldukça önyargılıdırlar. Son olarak, modern LLM'ler doğruluk veya kesinlikten ziyade talimatları takip etmek ve kullanıcıların duymak istediklerini söylemek için optimize edilmiştir. Bu özellik, onları yararlı yardımcılar haline getirirken, güvenilir bilgi kaynakları olmalarını engellemektedir.
Bu, üç aşamadan oluşan modern LLM eğitim prosedürünün bir sonucudur:
- Ön eğitim: Eğitimin bu aşamasında, model dilin istatistiksel kalıplarını öğrenir. Eğitim verilerindeki önyargılar bu kalıplarda ortaya çıkar. Örneğin, Wikipedia gibi internette sıkça görülen veriler aşırı temsil edilir, bu nedenle AI tarafından üretilen metinler genellikle resmi, ansiklopedik bir üsluba sahiptir. Ayrıca, eğitim verilerini oluşturmak için ucuz, dış kaynaklı işgücü kullanılır, bu nedenle "delve", "tapestry" ve "intricate" gibi kelimeler AI tarafından üretilen metinlerde son derece yaygın hale gelir ve son kullanıcıdan ziyade veri oluşturucuların dil normlarını yansıtır.
- Talimat Ayarlama: Bu aşamada model, talimatları takip etmeyi ve emirlere itaat etmeyi öğrenir. Sonuç olarak, model doğru ve kesin bilgiler sunmaktansa talimatları takip etmenin daha iyi olduğunu öğrenir. Bu da, AI'nın gerçekleri uydurmak veya "halüsinasyon görmek" zorunda kalsa bile, yardımcı ve hoş bir yanıt üretmeye öncelik verdiği, dalkavukça veya "insanları memnun etmeye yönelik" bir davranışa yol açar. Onlar için doğru bilgiyi elde etmekten çok insanları memnun etmek daha önemlidir.
- Hizalama: Bu aşamada model, insanların neyi sevdiğini ve tercih ettiğini söylemeyi öğrenir. Neyin "iyi" neyin "kötü" olduğunu öğrenir. Ancak, bu tercih verileri son derece önyargılı olabilir ve genellikle tarafsız, güvenli ve saldırgan olmayan yanıtları tercih eder. Bu süreç, modelin kendine özgü sesini ortadan kaldırabilir ve tartışmalı veya güçlü görüşlerden kaçınmasına neden olabilir. LLM'nin gerçeklik veya doğruluk konusunda temel bir dayanağı yoktur.
Üretken yapay zeka modelleri, teknoloji şirketleri tarafından piyasaya sürülen, çıktılarına yansıtılan önyargıları ve davranışları kasıtlı olarak enjekte eden ürünlerdir.
AI dilinde kalıplar nelerdir?
LLM'lerin nasıl eğitildiğini anladıktan sonra, AI yazma araçlarının "ipuçlarını" tespit edebilirsiniz. Genellikle tek bir belirleyici unsur değil, tüm bu kelimelerin birleşimi dedektörleri harekete geçirir.
Dil ve Stil
- Kelime Seçimi: AI içerik yazarlarının favori kelimeleri vardır, örneğin: yön, zorluklar, derinlemesine incelemek, geliştirmek, duvar halısı, vasiyet, otantik, kapsamlı, önemli, dönüştürücü ve ayrıca ve dahası gibi zarflar. Bu, ön eğitim veri setlerindeki önyargıdan kaynaklanır. Bu kelimelerin sık kullanımı, aşırı resmi veya abartılı bir üslup yaratabilir ve genellikle tipik bir öğrenci makalesi veya gayri resmi iletişim bağlamında uygunsuz hissedilebilir.
- İfade Kalıpları: AI yazımı , "biz [fiil] konuyu ele alırken", "dikkat edilmesi gereken nokta", "sadece değil, aynı zamanda", "yolu açarak" ve "konu söz konusu olduğunda" gibi ifade kalıplarını kullanır . Bu ifadeler gramer açısından doğru olsa da, genellikle konuşma sırasında dolgu olarak kullanılır ve yazıyı genel ve kalıplaşmış hissettirebilir.
- Yazım ve Dilbilgisi: AI yazıları genellikle mükemmel yazım ve dilbilgisi kullanır ve karmaşık cümleler kullanmayı sever. İnsan yazıları ise basit ve karmaşık cümleleri karıştırarak kullanır ve uzman düzeyindeki yazarlar bile bazen stilistik nedenlerle "kitaba uygun mükemmel" olmayan dilbilgisi kalıpları kullanır, örneğin vurgu yapmak için cümle parçaları kullanmak gibi.
Yapı ve Organizasyon
- Paragraflar ve Cümle Yapısı: AI yazıları genellikle, hepsi yaklaşık aynı uzunlukta olan ve liste benzeri yapıları olan çok düzenli paragraflar kullanmayı sever. Bu, insan yazılarındaki doğal çeşitlilikten yoksun, monoton bir ritim ile sonuçlanabilir. Bu durum cümle uzunluğu için de geçerli olabilir.
- Giriş ve Sonuç: AI tarafından üretilen makaleler genellikle çok düzgün bir giriş ve sonuca sahiptir ve sonuç genellikle çok uzundur, "Genel olarak" veya "Sonuç olarak" ile başlar ve daha önce yazılanların çoğunu tekrarlar, esasen yeni bir bakış açısı veya sentez eklemeden tezi ve ana noktaları yeniden ifade eder.
Amaç ve Kişilik
- Amaç ve Niyet: Yazılar genellikle çok belirsiz ve genel ifadelerle doludur. Bunun nedeni, talimatların ayarlanmasında komutlara aşırı öncelik verilmesi ve konudan sapmamak için modelin, yanlış olma riskini en aza indirmek için gerçekten belirsiz ve genel ifadeler kullanmanın en iyisi olduğunu öğrenmesidir.
- Yansıma ve Metabilgi: AI, yazıyı yansıtma ve kişisel deneyimlerle ilişkilendirme konusunda çok kötüdür... çünkü ilişkilendirebileceği kişisel deneyimleri yoktur! İnsan yazıları, yazarının benzersiz sesini ve kişisel deneyimlerini yansıtabilir, bağlantılar kurabilir ve mevcut bilgilerin basit bir karışımı olmayan yeni fikirler üretebilir.
- Stil ve Tonundaki Ani Değişiklikler: Bazen ton ve stilde çok rahatsız edici ve ani değişiklikler olabilir. Bu, bir öğrenci yazısının bir kısmında AI kullanırken, tamamında kullanmadığında, tutarsız ve kopuk bir son ürün ortaya çıktığında olur.
AI Algılama nasıl çalışır: Üç Adım
- AI algılama modelini eğitin: İlk olarak, model eğitilir. İlk AI algılayıcıları, yüksek karmaşıklık veya yüksek patlama oranına sahip metin parçalarını algılamaya çalıştıkları için çok iyi çalışmıyordu. Karmaşıklık, bir metindeki her kelimenin büyük bir dil modeli için ne kadar beklenmedik veya şaşırtıcı olduğudur. Patlama, bir belge boyunca karmaşıklıkta meydana gelen değişikliktir. Ancak, bu yaklaşımın birkaç kusuru vardır ve genellikle AI çıktılarını algılamada başarısız olur. Ayrıca, eğitmek için yalnızca sınırlı bir metin veri kümesi kullanırlar. Pangram gibi modern ve başarılı modeller, daha doğru sonuçlar elde etmek için daha geniş bir veri kümesi kullanır ve aktif öğrenme gibi teknikler uygular.
- Sınıflandırılması gereken metni girin ve tokenize edin: Kullanıcı girişi yapar. Sınıflandırıcı, giriş metnini aldığında onu tokenize eder. Bu, tüm metni alıp modelin anlayabileceği bir dizi sayıya ayırdığı anlamına gelir. Model daha sonra her tokeni, her tokenin anlamını temsil eden bir sayı vektörü olan bir gömme haline getirir.
- Token'ı insan veya AI olarak sınıflandırın: girdi sinir ağından geçirilerek bir çıktı gömme üretilir. Bir sınıflandırıcı başlığı, çıktı gömmeyi 0 veya 1 tahminine dönüştürür; burada 0 insan etiketi, 1 ise AI etiketidir.
Yanlış Pozitifler ve Yanlış Negatifler ne olacak?
Bir AI algılama aracının değeri, aracın kullanımından kaynaklanan yanlış pozitif (FPR) ve yanlış negatif (NPR) sonuçların sayısı ile ölçülür. Yanlış pozitif, bir algılayıcının insan tarafından yazılmış bir içerik örneğini yanlışlıkla AI tarafından yazılmış olarak tahmin etmesidir. Buna karşılık, yanlış negatif, AI tarafından oluşturulan bir örneğin yanlışlıkla insan tarafından yazılmış metin olarak tahmin edilmesidir.
İnsan vs. Otomatik Algılama
AI'yı sadece gözle tespit etmeyi tercih ederseniz, eğitim almanız gerekir. Uzman olmayanlar, rastgele tahminlerden daha iyi sonuçlar elde edemezler. İleri düzey dilbilimciler bile, özel eğitim almadan AI'yı tespit edemezler. En iyi sonuçları elde etmek için her iki yöntemi de kullanmanızı ve daha sağlam ve adil bir değerlendirme süreci oluşturmanızı öneririz.
AI içerik dedektörleri, bir şeyin AI araçları tarafından üretilip üretilmediğini size söyleyebilir. İnsanlar ise bir şeyin AI olup olmadığını söylemekle kalmaz, bu karara ek bağlam ve nüanslar da ekleyebilir. İnsanlar bağlamı bilir: önceki öğrenci yazma örnekleri, sınıf seviyesine uygun yazma biçimi ve bir öğrencinin tipik ödev yanıtının nasıl olduğu gibi. Bu bağlam çok önemlidir, çünkü AI kullanımının uygunluğu ödevin talimatlarına bağlı olarak büyük ölçüde değişebilir.
AI algılama araçları sadece başlangıçtır. Bir öğrencinin akademik dürüstlüğü ihlal ettiğine dair kesin bir kanıt değildir, daha çok daha fazla bağlamsal araştırma gerektiren ilk veri noktasıdır. AI kullanımı kasıtsız, tesadüfi veya hatta belirli bir ödevin kapsamında izin verilebilir: duruma göre değişir!
Bonus: Peki ya İnsanlaştırıcılar?!
İnsanlaştırıcılar, AI algılamasını önlemek için AI içeriğini "insanlaştırmak" için kullanılan araçlardır. İçerik yazarları, AI yazımının görünümünü değiştirmek için sıklıkla bunları kullanır. İnsancıllaştırıcılar metni başka kelimelerle ifade eder, belirli kelimeleri kaldırır ve bir içeriğe insan benzeri "hatalar" ekler. Bazen metni okunmaz hale getirir veya kalitesini önemli ölçüde düşürür. Birçok AI dedektörü, yazılımlarını insancıllaştırılmış metni tespit etmek için eğitir. İnsancıllaştırıcı kullanmak genellikle risklidir, çünkü metnin kalitesini önemli ölçüde düşürebilir ve bu özellikle öğrenci çalışmaları için endişe vericidir.
Artık nasıl çalıştıklarını bildiğinize göre, kendi içeriğinizi deneyin. AI mı yoksa insan mı?