Twitter, LinkedIn, Substack ve diğer platformlarda hangi içeriklerin insan, hangilerinin yapay zeka tarafından oluşturulduğunu anında öğrenin. Yeni Chrome uzantımızı indirin.
Açıklama: Düzenleme sürecinde teknik açıklamaların taslağını hazırlamak ve yapısal ve üslup açısından iyileştirmeler önermek amacıyla bir yapay zeka dil modeli kullanılmıştır. Makalenin son halinde yapay zekadan gelen çeşitli öneriler kullanılmıştır.
Utanç verici derecede çok sayıda kurgu eseri okudum, özellikle de bilim kurgu. Ayrıca yazılım mühendisliği işim gereği piyasaya sürülen tüm önde gelen yapay zeka modellerini kullanıyorum.
Bu iki deneyim, bana yüksek yetenekli bir insan yazarla karşılaştırıldığında yapay zekanın şaşırtıcı derecede tekdüze bir "ses"e sahip olduğu konusunda içimi kemiren bir his bıraktı.
Edebiyata ilgi duyan herkes, bahsettiğim şeyi hissetmiştir. Yaklaşık beş bin farklı yazarın öykülerini okudum, ama içtenlikle şunu düşünüyorum ki, sadece yarım düzine yazar okumuş olsanız bile, her yazarın kendine özgü bir üslup alanı olduğunu fark edeceksiniz.
İnsan yazarların kendine özgü üsluplarıyla karşılaştırıldığında, yapay zeka tarafından yazılan metinler dikkat çekici derecede tekdüze geliyor. Bunun için geçerli bir neden olduğu ortaya çıkıyor ve bu neden bilgi teorisiyle ilgili.
Eşsiz bir yazar "sesi" rastgele değildir ve sıradan da değildir. Bu, belirli bir olasılık dağılımıdır — buna P_author diyelim. Bir yazar yazarken, son derece kendine özgü bir süreçten örnekler alır. Kavramları, anlatım hızını, kelime dağarcığını ve diğer üslup araçlarını nasıl kullandıklarına dair belirli koşullu olasılıklara sahiptir.
Bir sesi tanınır kılan şey, yazarın tutarlı bir şekilde yaptığı düşük frekanslı, yüksek etkili seçimlerdir (dağılımın uzun kuyruğu). "Ted Chiang" dersem, hemen cümlelerinin sözdizimsel olarak ne kadar yalın, ancak anlamsal olarak ne kadar yoğun olduğunu düşünürsünüz (bu, hayran olduğum bir üslup, ancak bu parantez içinde belirttiğim gibi, taklit edemediğim bir şey). "Ursula K. Le Guin" dersem, onun nasıl bu kadar net ve gerçekçi olabileceğini, ama yine de lirik bir his verebildiğini düşüneceksiniz — onun stilini pek iyi tarif edemem, ama Le Guin okurları ne demek istediğimi anlar.
Sonuç olarak demek istediğim şu ki, bir metnin ne kadar "yapay zeka benzeri" olduğunu ölçmenin doğru yolu, metnin genel olarak öngörülebilir olup olmadığını kontrol etmek değildir — en yetkin yazılar bile bir dereceye kadar öngörülebilirdir —; bunun yerine, modelin çıktı dağılımı ile belirli bir yazarın dağılımı arasındaki KL sapmasını ölçmektir: D_KL(P_author || Q_model). KL sapmasına aşina olmayanlar için, bu, modelin dağılımının yazarın seçimlerini ne kadar kötü bir şekilde kapsamadığını ölçer (daha spesifik olmak gerekirse, Q için optimize edilmiş bir kod kullanarak P'den örnekleri kodlamanın beklenen ekstra bilgi maliyetini ölçer). Bu sapma büyük ve yapılandırılmış olduğunda, bir ses duyarsınız.
Ön eğitim aşamasında, büyük bir dil modeli insan metinlerinin genelleştirilmiş dağılımının bir haritasını oluşturur. Bu temel dağılım, Q_base, son derece geniştir. Gizil uzayında, neredeyse her türlü P_author değerine yaklaşma kapasitesine sahiptir.
Bahsettiğim tuzak, modelin ayarlamasıyla başlar. Modeli güvenli ve kullanışlı hale getirmek için laboratuvarlar, İnsan Geri Bildiriminden Pekiştirici Öğrenme (RLHF) gibi teknikleri ve diğer yöntemleri kullanır. Ayrıntılar değişiklik gösterse de, sonuçta model, insan (veya yapay zeka) tercihlerinden türetilen bir ödül sinyaline göre yüksek puan alacak çıktılar üretecek şekilde optimize edilir.
Bu, modeli İngilizce'nin istatistiksel ortalamasına doğru itmez. Onu, farklı bir olasılık dağılımına sahip bir şeye doğru iter — buna "Etiketleyici Konsensüs Lehçesi" diyelim.
Buna ulaşmak için işleyen mekanizma şudur: Jüri üyeleri (çıktıları değerlendirmek üzere işe alınan serbest çalışanlar, uzmanlar ya da başka kişiler) çıktıları değerlendirdiğinde, kendine özgü yazım tarzı puanlarda büyük farklılıklara yol açar. Benim yazım tarzım bir değerlendiriciden 5/5, başka birinden 2/5 puan alabilir. Ancak, steril, simetrik ve aşırı temkinli bir yanıt, genel olarak 4/5 puan alabilir. Optimizasyon algoritması, beklenen ödülü en üst düzeye çıkarmanın en güvenli yolunun varyansı azaltmak olduğunu belirler. Bu, otel lobisi dekoruna eşdeğer bir konuşma tarzıdır.
"Joe, bu adil bir tanımlama değil! Yeni hizalama teknikleri, çeşitliliği korumak için özel olarak tasarlanmış!" diyebilirsiniz. Bu doğru olsa da, yeni yöntemler hâlâ "tercih edilen" bir çıktı kavramı için optimizasyon yapıyor ve bu da, güvenli ve genel olarak kabul gören bir üsluba kıyasla, yüksek varyanslı risk almayı hâlâ dezavantajlı kılıyor.
Bu, test edilebilir bir iddiadır (ben test etmedim, ancak test edilebilir). Eğer hizalanmış model çıktıları ile, örneğin kurumsal iletişim metinleri ile edebi kurgu metinlerinden oluşan bir metin kümesi arasındaki KL sapmasını ölçerseniz, benim tahminim, modelin dağılımının kurumsal metinlerin dağılımına çok daha yakın olacağı yönündedir. Bildiğim kadarıyla, henüz kimse bu ölçümü tam olarak yayınlamamıştır, ancak optimizasyon matematiği bunu güçlü bir şekilde öngörmektedir.
Ne düşündüğünüzü biliyorum: evet, ama modele bu üslubun dışına çıkması için talimat verebilirsiniz. "1920'lerin sert dedektif romanları tarzında yaz" ya da benzeri bir şey (içimden bir ses, bir modele bu makaleyi Lupe Fiasco şarkı sözleri gibi yeniden yazmasını istesem nasıl olurdu merak ediyor). Bu, Annotator Konsensüs Üslubundan farklı görünen metinler üretse de, yine de şüphe uyandıracak kadar tekdüze geliyor.
Bunun nedeni, bir dağılımın ortalamasını kaydırmakla varyans yapısını yeniden oluşturmak arasında matematiksel bir fark olmasıdır.
Bir modele bir yazarı taklit etmesini istediğinizde, modelin ağırlık merkezi değişir. Model, hedefin kelime dağarcığı, cümle yapısı ve diğer üslup özelliklerinin istatistiksel ortalamasını hesaplar ve bu noktaya kayar. Ancak bu yeni konuma, daha önce ele aldığımız varyansın azaltıldığı mekanizmayı uygular.
İnsan yazım tarzı, yapılandırılmış düzensizliğe dayanır. Bir yazarın temel bir ritmi vardır, ancak duygusal etki yaratmak amacıyla bir cümleyi kesik kesik hale getirmek, karakteristik olmayan bir fiil kullanmak ya da cümleyi karmaşıklaştırmak gibi yöntemlerle bu ritmi kasıtlı olarak bozar. Hesaplamalı stilometri, bunu ölçmek için araçlara sahiptir: Cümle uzunluğu zaman serilerindeki Hurst eksponentleri, insan yazılarında yapay zeka metinlerinde bulunmayan uzun vadeli bağımlılıkları ortaya çıkarabilir. İnsan yazarlar, sözcük çeşitliliğini modellerin yapmadığı şekillerde ayarlar.
Bütün bunlar şunu ifade ediyor: Belirli bir üslupta yazılmasını istediğinizde, model hedef üslubun tipik özelliklerini yakalıyor ancak tüm ani dalgalanmaları yumuşatıyor. İstediğiniz şeyin bir karikatürünü oluşturuyor.
Yapay zekanın dağılımı çok dar ise, neden bunu genişletemiyoruz?
En yaygın yaklaşım sıcaklık ölçeklemedir. Sıcaklık T değerini artırdığınızda, olasılıkları hesaplamadan önce modelin ham logit değerlerini T'ye bölersiniz; bu da dağılımın tamamını düzleştirir ve modeli daha az olası kelimeleri seçmeye zorlar. Ancak bu işlem körü körüne yapılır. Bir insan yazarın kendine özgü tarzı büyük ölçüde bağlama bağlıdır. İnsanlar kuralları çok belirli ve tutarlı şekillerde çiğnerken, sıcaklık ölçeklemesi sadece rastgele gürültü ekler.
Umarım bu oldukça sezgisel olarak anlaşılırdır — sonuçta sıcaklığı artırmak, sizi "şüpheli derecede düzgün" durumdan "şüpheli derecede rastgele" duruma geçirir; bu süreçte "insan" aşamasına hiç uğramazsınız.
Daha gelişmiş kod çözme stratejileri olduğunu biliyorum. Top-p (nükleus) örnekleme, top-k filtreleme, tekrar cezaları ve sınıflandırıcı içermeyen yönlendirme, hepsi daha hedefli bir yeniden dağıtım sağlamaya çalışır. Bunlar marjinal düzeyde yardımcı olur, ancak hiçbiri şu temel sorunu çözmez: Bunlar, tüm çalışma felsefesi (eğer buna öyle denebilirse) hizalama aşamasında şekillendirilmiş bir model üzerinde gerçekleştirilen, çıkarım anında yapılan müdahalelerdir.
Burada, yakın zamanda bir arkadaşımın dikkatimi çektiği önemli bir nüans daha var: hizalama, temel modelin stilistik çeşitlilik konusundaki gizil kapasitesini ortadan kaldırmaz. Yeterli sayıda ağırlık olduğu sürece, önceden eğitilmiş ağırlıklar Q_base’in zenginliğinin büyük bir kısmını hâlâ kodlamaktadır. Temsil Mühendisliği gibi yeni ortaya çıkan çıkarım zamanı yönlendirme teknikleri, altta yatan gizli uzaya ulaşarak bastırılmış çeşitliliği kısmen geri kazanabilir. Ancak bunlar araştırma alanlarıdır ve halka açık AI ürünlerinde mevcut değildir.
Benzer şekilde, uzun bağlamlı bağlam içi öğrenme de biraz daha iyi sonuçlar verebilir, ancak bağlam yeterince genişlediğinde dikkat mekanizmaları zayıflar (ve bağlam büyüdükçe tekrar tekdüze dağılıma doğru kaymaya başlarsınız).
Buradan çıkarılacak en önemli sonuç, RLHF ile bağlantılı tekniklerde yapılan tasarım seçimlerinin, bu yapay zeka "seslerinin" kimsenin kabul etmek istemediği kadar uzun bir süre boyunca tespit edilebilir kalmasına neden olacağıdır.
Ayrıca, bir yazarın üslubunu belirli bir yüksek boyutlu olasılık dağılımı olarak düşünmek faydalıdır; bir dahaki sefere en sevdiğiniz yazarı okurken, KL sapmasının bazı örneklerini kendiniz belirlemeye çalışmanızı öneririm. Yazarın sesi nereden geliyor? Bu, metinden aldığınız keyfi artırabilecek eğlenceli bir alıştırmadır ve yeni bilgileri uygulamaya koyup içselleştirmenin zorlu süreci, LLM'nin neden olduğu beceri körelmesinin yaşandığı bu günlerde gerçekleştirilmesi gereken iyi bir alıştırmadır.

Joe Stech, yıllık antoloji dizisi Think Weirder: The Year's Best Science Fiction Ideas’ın editörüdür. Ayrıca Arm’da geliştirici ve platform destek biriminde Baş Çözüm Mimarı olarak görev yapmaktadır. Burada ifade edilen görüşler kendisine aittir.






