Proofig ile yeni bir ortaklık duyurusu! Daha fazla bilgi edinin
ICLR'ye gönderilen AI tarafından oluşturulan özetlerin yüzdesini yıllara göre gösteren ve 2023'ten bu yana yükseliş eğilimini ortaya koyan bir grafik.
2024 yılının Şubat ayında, Frontiers in Cell and Developmental Biology dergisinde yayınlanan bir makalede, açıkça yapay zeka tarafından üretilmiş olduğu anlaşılan resimler yer aldı. Bu makale, resimlerden birinde absürt derecede büyük testisleri olan bir sıçan ve hiçbir anlam ifade etmeyen anlamsız metinler yer aldığı için manşetlere taşındı.
Bu, Frontiers in Cell and Developmental Biology dergisinde yayınlanan gerçek bir makaledir. Şekillerin yapay zeka tarafından oluşturulduğu açıkça görülüyor. Şekillerden birinde, absürt derecede büyük testisleri olan bir sıçan yer alıyor. Şekillerdeki metinler anlamsız. pic.twitter.com/4Acn2YZYwM
— Cliff Swan (@cliff_swan) 15 Şubat 2024
Akran değerlendirmesi (teorik olarak) bu gibi bariz vakaları yakalamak için yeterli olsa da, makalenin içeriği yapay zeka tarafından üretilmişse ne olacak? Uzmanlar bile yapay zeka tarafından üretilen araştırmaları insan tarafından yazılmış araştırmalardan ayırt etmekte zorlanıyor.
Nature dergisinde yakın zamanda yayınlanan bir haber, akademik makalelerde yapay zeka tarafından üretilen içeriklere yönelik artan endişeleri vurguluyor. Makale, bilgisayar bilimcilerin en yeni LLM'lerden biri olan Claude 3.5'i kullanarak araştırma fikirleri üretip makaleler yazdıkları ve bu makaleleri bilimsel hakemlere sundukları bir çalışmayı ele alıyor. Hakemler, makaleleri "yenilik, heyecan, uygulanabilirlik ve beklenen etkinlik" açısından değerlendirdiler. Ortalama olarak, hakemlerin yapay zeka tarafından yazılan makaleleri insan tarafından yazılan makalelerden daha yüksek puanladıkları görüldü! Bu da şu soruyu akla getiriyor: AI gerçekten insanlardan daha iyi araştırma fikirleri üretiyor mu? Bunun böyle olabileceğine inanmak cazip olsa da, araştırmacılar tarafından incelenen 4.000 AI tarafından üretilen makaleden sadece 200'ü (%5) gerçekten orijinal fikirler içeriyordu: makalelerin çoğu, LLM'nin eğitim setinden zaten var olan fikirleri tekrarlıyordu.
Sonuç olarak, AI tarafından üretilen araştırmalar, araştırma standartlarını korumaya özen gösteren hakemlerin zaman ve çabalarını boşa harcamak bir yana, hakem değerlendirme sürecinde gürültü ekleyerek ve sinyali azaltarak topluma zarar vermektedir. Dahası, daha da kötüsü, AI tarafından üretilen araştırmalar genellikle ikna edici görünse de, gerçekte dil modeli tarafından üretilen metinler sadece akıcı geliyor ve hatalar, halüsinasyonlar ve mantıksal tutarsızlıklarla dolu olabilir. Buradaki endişe, uzman hakemlerin bile okuduklarının LLM halüsinasyonu olup olmadığını çoğu zaman anlayamamasıdır.
Önemli makine öğrenimi konferanslarının organizatörleri bizimle aynı fikirde: bilimsel yazılarda LLM tarafından üretilen metinlere yer yoktur. ICML (Uluslararası Makine Öğrenimi Konferansı) için resmi politika şu şekildedir:
Büyük Dil Modeli Politikası Hakkında Açıklama
Biz (Program Başkanları), 2023 tarafından temsil edilen ICML için Makale Çağrısı'na aşağıdaki açıklamayı ekledik:
ChatGPT gibi büyük ölçekli dil modelinden (LLM) üretilen metinleri içeren makaleler, üretilen metin makalenin deneysel analizinin bir parçası olarak sunulmadıkça yasaktır.
Bu açıklama, potansiyel yazarlar tarafından bir dizi soruyu gündeme getirmiş ve bazılarının proaktif olarak bizimle iletişime geçmesine neden olmuştur. Geri bildirimlerinizi ve yorumlarınızı takdir ediyor ve bu açıklamanın arkasındaki niyeti ve ICML 2023 için bu politikayı nasıl uygulamayı planladığımızı daha ayrıntılı olarak açıklığa kavuşturmak istiyoruz.
TLDR;
ICML 2023 için Büyük Dil Modeli (LLM) politikası, tamamen LLM'ler tarafından üretilen (yani "üretilmiş") metinleri yasaklamaktadır. Bu, yazarların yazar tarafından yazılmış metinleri düzenlemek veya düzeltmek için LLM'leri kullanmasını yasaklamaz. LLM politikası, intihal dahil olmak üzere LLM'lerin kullanımından kaynaklanabilecek olası sorunlara karşı koruma sağlamak için büyük ölçüde ihtiyatlı olma ilkesine dayanmaktadır.
Bu uyarıya rağmen, makine öğrenimi alanında önemli ve giderek artan sayıda yazarın bu politikayı ihlal ettiğini ve yine de makalelerinde metin oluşturmak için yapay zeka kullandığını tespit ettik.
Pangram'da, kendi alanımız olan Yapay Zeka'da bu sorunun boyutunu ölçmek istedik. Şu soruyu yanıtlamaya çalıştık: Yapay Zeka araştırmacıları kendi araştırmalarını yazmak için ChatGPT'yi kullanıyor mu?
Bu sorunu incelemek için, OpenReview API'sini kullanarak 2018'den 2024'e kadar iki büyük yapay zeka konferansı olan ICLR ve NeurIPS'e gönderilen konferans sunumlarını çıkardık.
Ardından, bu konferanslara sunulan tüm özetler üzerinde Pangram'ın AI Detector uygulamasını çalıştırdık. Bulgularımız şöyledir:
ICLR'ye gönderilen AI tarafından oluşturulan özetlerin yüzdesini yıllara göre gösteren ve 2023'ten bu yana yükseliş eğilimini ortaya koyan bir grafik.
Neurips'e gönderilen AI tarafından oluşturulan özetlerin yıllık yüzdesini gösteren ve 2023'ten bu yana yükseliş eğilimini ortaya koyan bir grafik.
2022 öncesindeki her şeyi, modelimizin yanlış pozitif oranının doğrulama seti olarak görebiliriz, çünkü o zamanlar büyük dil modelleri mevcut değildi. Şekillerde gösterildiği gibi, 2022 veya öncesine ait her bir konferans özetinin modelimiz tarafından insan tarafından yazılmış olarak tahmin edileceğini öngörüyoruz. Bu, modelimizin doğruluğuna güven duyulmasını sağlamalıdır: bilimsel özetlerde yanlış pozitif oranımız çok iyidir, bu nedenle 2023 ve 2024'te yapılan her pozitif tahminin doğru pozitif olduğundan emin olabiliriz.
O zamandan beri gördüklerimiz oldukça endişe verici. ChatGPT'nin Kasım 2022'de piyasaya sürülmesinden bu yana 3 konferans döngüsü gerçekleşti.
İlk döngü, ChatGPT'nin piyasaya sürülmesiyle (ICLR 2023) aynı zamanda gerçekleşti. Son başvuru tarihi aslında ChatGPT'nin piyasaya sürülmesinden önceydi, ancak yazarlar konferansın gerçekleşmesinden önce, yani ChatGPT'nin piyasaya sürülmesinden birkaç ay sonra düzenlemeler yapma fırsatına sahipti. Bulgularımız beklendiği gibiydi: sadece birkaç özet AI tarafından yazılmıştı (bu döngüde birkaç bin özetin sadece 2'sinin AI tarafından yazıldığını tespit ettik) ve bunlar muhtemelen son başvuru tarihinden sonra değiştirilmişti.
İkinci döngü yaklaşık 6 ay sonra, Aralık ayında yapılacak konferans için son başvuru tarihi 2023 yazında olan NeuRIPS 2023'te gerçekleşti. Bu konferansta, gönderilen özetlerin yaklaşık %1,3'ünün yapay zeka tarafından üretildiğini bildirdik: küçük ama önemli bir oran.
Son olarak, birkaç ay önce gerçekleşen en son döngü olan ICLR 2024'te, %4,9'a kadar bir artış gözlemledik: NeuRIPS 2023'e göre AI tarafından üretilen incelemelerde neredeyse 4 kat artış!
Bu sonuçlar endişe verici bir eğilimi ortaya koymaktadır: Büyük AI etkinliklerine sunulan AI tarafından üretilen konferans makalelerinin sayısı artmakla kalmıyor, aynı zamanda bu sayı giderek artan bir hızla artmaktadır: başka bir deyişle, AI tarafından üretilen makalelerin sunulma hızı giderek artmaktadır.
Bu özetlerin bazılarına göz atın ve bunların teknik bilimsel literatürde okumaya alışık olduğunuz türden yazılar olup olmadığını kendiniz görün:
Ağ bağlantılı verilerin karmaşık yapısında, müdahalelerin nedensel etkilerini anlamak, çeşitli alanlarda etkileri olan kritik bir zorluktur. Grafik Sinir Ağları (GNN'ler), karmaşık bağımlılıkları yakalamak için güçlü bir araç olarak ortaya çıkmıştır, ancak GNN tabanlı ağ nedensel çıkarımları için geometrik derin öğrenmenin potansiyeli henüz yeterince araştırılmamıştır. Bu çalışma, bu boşluğu doldurmak için üç önemli katkı sağlamaktadır. İlk olarak, grafik eğriliği ile nedensel çıkarım arasında teorik bir bağlantı kurarak, negatif eğriliklerin nedensel etkileri belirlemede zorluklar yarattığını ortaya koyuyoruz. İkinci olarak, bu teorik içgörüye dayanarak, nedensel etki tahminlerinin güvenilirliğini tahmin etmek için Ricci eğriliği kullanarak hesaplama sonuçları sunuyoruz ve pozitif eğrilik bölgelerinin daha doğru tahminler sağladığını ampirik olarak gösteriyoruz. Son olarak, ağ bağlantılı veriler üzerinde tedavi etkisi tahminini iyileştirmek için Ricci akışını kullanan bir yöntem öneriyoruz ve ağdaki kenarları düzleştirerek hatayı azaltarak üstün performans gösteriyoruz. Bulgularımız, nedensel etki tahmininde geometriden yararlanmak için yeni yollar açarak, nedensel çıkarım görevlerinde GNN'lerin performansını artıran içgörüler ve araçlar sunuyor.
Dil modelleri alanında, veri kodlama, model eğitiminin verimliliğini ve etkinliğini etkileyen çok önemli bir unsurdur. Byte Pair Encoding (BPE), sık kullanılan bayt veya karakter çiftlerini birleştirerek hesaplama verimliliği ve dilbilimsel ifade gücünü dengeleyen, iyi bilinen bir alt kelime tokenizasyon tekniğidir. Dil modeli eğitimi önemli miktarda hesaplama kaynağı gerektirdiğinden, dil modelleri için veri kodlamada geleneksel Byte Pair Encoding (BPE) yaklaşımını önemli ölçüde geliştiren Fusion Token yöntemini öneriyoruz. Fusion Token, BPE'ye kıyasla daha agresif bir hesaplama stratejisi kullanır ve token gruplarını bi-gramlardan 10-gramlara genişletir. Dikkat çekici bir şekilde, sözlüğe 1024 token eklenmesiyle, sıkıştırma oranı bir milyonluk sözlüğe sahip normal bir BPE tokenizer'ın sıkıştırma oranını önemli ölçüde aşmaktadır. Genel olarak, Fusion Token yöntemi, hesaplama birimi başına artan veri kapsamı sayesinde belirgin performans iyileştirmeleri sağlar. Ayrıca, daha yüksek sıkıştırma, belirli bir dize başına daha az token olması nedeniyle daha hızlı çıkarım süreleri ile sonuçlanır. Tokenizer oluşturma sürecine daha fazla hesaplama kaynağı ayırarak, Fusion Token, dil modellerinin verimli veri sıkıştırma motorları olarak potansiyelini en üst düzeye çıkarır ve daha etkili dil modelleme sistemleri sağlar.
Hızla gelişen hareket üretimi alanında, metinsel anlambilimin geliştirilmesi, daha doğru ve gerçekçi hareketler üretmek için oldukça umut verici bir strateji olarak kabul edilmektedir. Ancak, mevcut teknikler genellikle metin açıklamalarını iyileştirmek için kapsamlı dil modellerine dayanmaktadır ve metin ile hareket verileri arasında kesin bir uyum sağlamamaktadır. Bu uyumsuzluk genellikle hareket üretiminin optimal düzeyde olmamasını ve bu yöntemlerin potansiyelinin sınırlanmasına neden olmaktadır. Bu sorunu çözmek için, metin ve hareket verileri arasındaki boşluğu doldurmayı amaçlayan SemanticBoost adlı yeni bir çerçeve sunuyoruz. Yenilikçi çözümümüz, hareket verilerinden elde edilen ek anlamsal bilgileri, özel bir gürültü giderme ağıyla entegre ederek anlamsal tutarlılığı garanti altına alıyor ve hareket üretiminin genel kalitesini yükseltiyor. Kapsamlı deneyler ve değerlendirmelerle, SemanticBoost'un hareket kalitesi, uyum ve gerçekçilik açısından mevcut yöntemlerden önemli ölçüde daha üstün olduğunu kanıtladık. Ayrıca, bulgularımız hareket verilerinden anlamsal ipuçlarını kullanmanın potansiyelini vurgulayarak, daha sezgisel ve çeşitli hareket üretimi için yeni yollar açıyor.
Herhangi bir örüntü fark ettiniz mi? İlk olarak, hepsinin çok benzer ifadelerle başladığını görüyoruz: "Karmaşık manzarada", "Alanında", "Hızla gelişen alanda". Buna yapay olarak süslü dil diyoruz. LLM'lerin çok az gerçek içerik üretmek için ne kadar sık çok fazla kelime kullandığını daha önce yazmıştık. Bu, ödevinde minimum kelime sayısını doldurmaya çalışan bir öğrenci için arzu edilebilir olabilir, ancak araştırmayı okumaya çalışan teknik bir okuyucu için bu tür aşırı ayrıntılı dil, makaleyi okumayı daha zor ve zaman alıcı hale getirirken, makalenin gerçek mesajını daha az net hale getirir.
AI tarafından üretilen makalelerin, akran değerlendirme süreci tarafından gerçekten etkili bir şekilde filtrelenip filtrelenmediğini veya bazılarının gözden kaçıp kaçmadığını merak ettik.
Bu soruyu yanıtlamak için, ICLR 2024'te AI tarafından oluşturulan özetler ile makale kararları arasındaki korelasyonu analiz ettik. (Sözlü, spot ışığı ve poster sunumları "Kabul Edilen" makalelerdir; sözlü ve spot ışığı sunumları özel tanıma kategorileridir). Bulgularımız şöyledir:
| Kategori | AI tarafından oluşturulan Yüzde |
|---|---|
| ICLR 2024 sözlü | 2.33% |
| ICLR 2024 posteri | 2.71% |
| ICLR 2024 öne çıkanlar | 1.36% |
| Reddedildi | 5.42% |
Kabul edilen AI tarafından üretilen makalelerin yüzdesi, gönderilenlerin yüzdesinden daha düşük olsa da, önemli bir kısmı yine de hakem değerlendirme sürecinden geçmiştir. Bu, hakemlerin AI tarafından üretilen bazı içerikleri tespit edebiliyor olsalar da, hepsini tespit edemediklerini ima etmektedir.
Bazı sözlü sunumların ve öne çıkan makalelerin bile AI tarafından oluşturulmuş özetleri olduğunu fark ettik! Durumu iyi niyetle yorumlayacak olursak, ileride göreceğimiz şey, araştırmanın aslında yüksek kalitede olduğu ve yazarların çalışmalarını daha iyi sunmak veya revize etmek için ChatGPT ile kısayollar kullandıkları olabilir.
Özellikle, araştırma topluluğunun çoğu ana dili İngilizce olmayan kişilerden oluştuğu için, LLM'lerin giderek artan bir şekilde kullanımı, diğer dillerde yazılmış makaleleri İngilizceye çevirmek olacaktır.
AI topluluğunun yazarlardan ChatGPT'yi kullanmamalarını açıkça talep etmesine rağmen, birçok yazar bu politikayı görmezden geliyor ve makalelerini yazmak için yine de LLM'leri kullanıyor. Daha da endişe verici olan ise, konferansları LLM tarafından üretilen makalelerden korumak için hakemlik yapan AI uzmanlarının bile bunu fark edememesi!
ChatGPT, akademik süreç boyunca daha da geniş bir etki yaratıyor. Yakın zamanda yapılan bir ICML vaka çalışması, akran değerlendirmelerinin yüzde 6 ila 16'sının yapay zeka tarafından oluşturulduğunu ve yapay zeka tarafından oluşturulan akran değerlendirmeleri ile değerlendirmenin son teslim tarihine ne kadar yakın olduğu arasında pozitif bir korelasyon olduğunu ortaya koydu!
AI topluluğunu bu politikaları daha iyi uygulamaya ve yazarları makalelerinin insanlar tarafından yazıldığından emin olmak için sorumluluk almaya çağırıyoruz.
