Yeni

Twitter, LinkedIn, Substack ve diğer platformlarda hangi içeriklerin insan, hangilerinin yapay zeka tarafından oluşturulduğunu anında öğrenin. Yeni Chrome uzantımızı indirin.

Daha Fazla Bilgi Edinin
Ürün Güncellemeleri

AI Tanımlama Duyurusu: Pangram, farklı LLM'leri birbirinden ayırt edebilir.

11 Şubat 2025

Pangram, ChatGPT, Claude, Gemini ve diğerleri tarafından yazılan AI tarafından üretilen metinleri tespit etmek ve AI tarafından yazılan metinleri insan tarafından yazılan metinlerden ayırt etmek için önde gelen bir yazılımdır.

Şimdi bir adım daha ileri giderek, yalnızca AI tarafından üretilen içeriği tespit etmekle kalmayıp, AI tarafından üretilen bir metnin hangi LLM'den geldiğini de belirleyebilen gelişmiş bir model piyasaya sürüyoruz. Yeni teknolojimize "AI Tanımlama" adını verdik.

AI Tanımlama

Sezgisel olarak, insanlar farklı LLM'lerin farklı yazma stilleri olduğunu fark etmeye başlıyor. Örneğin, ChatGPT oldukça doğrudan ve açık sözlü olmasıyla bilinirken, Claude daha akıcı ve sohbet tarzı olmasıyla, Grok sansürsüz ve kışkırtıcı olmasıyla, Deepseek-R1 ise laf kalabalığı ve ayrıntılı olmasıyla tanınmaya başlıyor.

Graham Neubig, farklı LLM'lerin stilistik eğilimlerini alaycı bir şekilde ele alıyor.Graham Neubig, farklı LLM'lerin stilistik eğilimlerini alaycı bir şekilde ele alıyor.

Ethan Mollick, Claude Sonnet'in hoş kişiliğini düşünür.Ethan Mollick, Claude Sonnet'in hoş kişiliğini düşünür.

UC Berkeley'den Lisa Dunlap ve işbirlikçilerinin yakın zamanda yaptıkları bir araştırma, farklı LLM'lerin niteliksel farklılıklarını (veya gayri resmi olarak "vibes"lerini) inceledi. Araştırmacılar, "Llama'nın GPT ve Claude'dan daha mizahi olduğunu, daha fazla biçimlendirme kullandığını, daha fazla örnek verdiğini ve etik konusunda çok daha az yorum yaptığını" gibi birçok ilginç bulguya ulaştı. Bunun anlamı, model performansının her zaman insan tercihleriyle uyumlu olmadığıdır: GPT-4 ve Claude-3.5, Llama serisinden daha gelişmiş modeller olsa da, Llama, aynı komutlara verilen yanıtlara göre tercihleri temel alan, kitle kaynaklı Elo tabanlı bir LLM sıralaması olan Chatbot Arena'da her zaman beklentilerin üzerinde bir performans sergiliyor gibi görünüyor. Chatbot Arena'da iyi performans gösteren modeller daha akıllı ve yetenekli mi, yoksa sadece insan psikolojisini daha "sevimli" hale getirecek şekilde mi kullanıyorlar? Bazı modeller diğerlerinden daha yararlı ve sevimliyse, doktora düzeyindeki mantık problemlerini çözmede daha az yetenekli olmaları önemli mi? Bunlar incelenmeye değer ve Chatbot Arena gibi sistemlerin geleneksel model değerlendirmelerine göre yararını anlamak için önemli sorular.

Pangram'da, modelimizin bu titreşimleri kullanarak bu LLM'leri birbirinden ayırt edip tanımlayıp tanımlayamayacağını merak ettik.

Pangram'ın Yapay Zeka Tanımlama Sistemi

Temel AI algılama modelimizi AI yazıları ile insan yazıları arasında ayrım yapması için eğittiğimiz gibi, aynı algılama modelini çoklu görev öğrenimi adı verilen bir teknik kullanarak AI tanımlaması yapması için de eğitiyoruz. Uygulamada, çeşitli dil modellerini kapsamlı deneyler sonucunda belirlediğimiz 9 gruba ayırıyoruz.

Aileler şunlardır:

  1. GPT-3.5
  2. GPT-4 (GPT-4o, GPT-4-turbo ve GPT-4o-mini dahil)
  3. OpenAI Akıl Yürütme Modelleri
  4. Claude
  5. Google (Gemini varyantları ve Gemma dahil)
  6. Grok
  7. DeepSeek
  8. Amazon Nova
  9. Diğerleri (LLaMA, Mistral, Qwen ve bu modellerin diğer açık kaynak türevleri dahil)

Bunu pratikte gerçekleştirmek için sinir ağımıza başka bir "baş" ekliyoruz. AI algılama görevini denetlerken, model etiketini ağa aktararak ve AI tanımlamadaki hatayı ve algılama tahminini geri yayarak AI tanımlama görevini de denetliyoruz.

Görsel kaynağı: GeeksForGeeksGörsel kaynağı: GeeksForGeeks

Modelin neredeyse tüm katmanları iki görev arasında paylaşılır ve yalnızca son tahmin katmanı bölünür.

Çoklu görev öğreniminde, bazı görevlerin birlikte öğrenildiğinde birbirlerine yardımcı olduğunu, bazı görevlerin ise birbirlerine zarar verdiğini görüyoruz. Biyolojide benzer bir kavram, simbiyoz ve parazitizm fikridir. Örneğin, deniz anemonunda yaşayan palyaço balığı simbiyozun bir örneğidir: palyaço balığı, anemonlara zarar verebilecek avcıları yiyerek beslenirken, kamuflaj yaparak ve anemonun içinde saklanarak kendi avcılarından korunur.

LLM tanımlama görevinin eklenmesinin LLM algılama göreviyle simbiyotik olduğunu tespit ettik. Başka bir deyişle, modelimizden yalnızca AI tarafından üretilen metni algılamasını değil, aynı zamanda bu metnin hangi modelden geldiğini de tanımlamasını istemek, AI'yı algılayabilmemiz için genel olarak yararlıdır. Diğer araştırmacılar da çeşitli LLM'lerin yalnızca insan metninden değil, birbirlerinden de ayırt edilebilir olduğunu doğrulamıştır.

Gömme, bir metin parçasının sayısal vektör olarak temsil edilmesidir. Gömmenin gerçek değerleri tek başına anlamlı değildir, ancak iki gömme birbirine yakınsa, bu, bunların benzer anlamlara veya benzer üsluba sahip olduğu anlamına gelir. UMAP adlı bir teknik kullanarak, çok yüksek boyutlu olan gömmeleri 2 boyutlu uzayda görselleştirebiliriz. Bu yazarlar, insanlar ve LLM'ler tarafından yazılan belgelerin stil gömülmelerine dönüştürüldüğünde, yukarıdaki resimde görebileceğiniz gibi, aynı LLM'ye karşılık gelen tüm belgelerin gömme uzayında ayrılabilir olduğunu bulmuşlardır! Bu, genel olarak, aynı LLM tarafından yazılan tüm belgelerin, farklı LLM'ler veya LLM'ler ve insanlar tarafından yazılan belgelere göre stil olarak daha yakın olduğu anlamına gelir.

Bu sonuç, kaynak LLM'yi tanımlayabilen bir sınıflandırıcı oluşturmanın mümkün olduğuna dair bize güven verdi.

AI Tanımlama Doğruluğu

Modelimiz, AI tarafından üretilen bir metnin hangi LLM ailesinden geldiğini %93 doğrulukla belirleyebilmektedir. Aşağıda, modelimizin her bir LLM ailesini (diyagonal hücreler) ne sıklıkla doğru bir şekilde belirlediğini ve bir LLM'yi başka bir LLM ile ne sıklıkla karıştırdığını (diyagonal olmayan hücreler) gösteren karışıklık matrisi bulunmaktadır. Renk ne kadar koyu olursa, o hücreye o kadar fazla tahmin düşer. Mükemmel bir modelde, sadece diyagonal boyunca koyu renkli kareler ve diğer her yerde beyaz kareler bulunur.

Karışıklık matrisimizle ilgili birkaç ilginç gözlem:

  • Model aileleri arasında karışıklıklar daha sık görülür. Örneğin, GPT-4 sık sık OpenAI akıl yürütme serisiyle karıştırılır. Bu mantıklıdır, çünkü GPT-4 muhtemelen OpenAI'nin akıl yürütme modellerinin bir bileşeni veya başlangıç noktasıdır!

  • Model, belirli LLM'lerden ziyade "Diğer" ile LLM'leri daha sık karıştırmaktadır. Bu, modelin emin olmadığı durumlarda, belirli bir LLM'ye karar vermek yerine varsayılan olarak "Diğer" seçeneğini tercih etme eğiliminde olduğunu göstermektedir.

LLM sınıflandırıcı mükemmel olmasa da, genellikle doğrudur ve en önemlisi, LLM sınıflandırıcı yanlış olduğunda, belirli AI sistemlerini diğer AI sistemleriyle karıştırır, ancak AI sistemlerinin çıktılarını gerçek insan yazıları ile karıştırmaz.

AI tanımlama neden önemlidir?

Birkaç nedenden dolayı, AI algılamanın ötesine geçip AI tanımlamasını da çözmenin önemli olduğuna inandık.

  • İlk olarak, modelin farklı LLM'lerin yazım stillerini ayırt etmeyi öğrenmesini öğretmenin, bir şeyin AI olup olmadığını belirlemekten daha zor bir görev olmasına rağmen, AI dedektörünün performansını güçlendirmeye yardımcı olduğuna inanıyoruz. Modelden daha fazlasını yapmasını isteyerek, bir bakıma gelişmiş beceriler ve gizil bilgi edinmesini sağlıyoruz ve bu da AI tarafından üretilen metinleri daha yüksek doğrulukla tespit etmesine yardımcı oluyor.

  • Yorumlanabilirlik, LLM sınıflandırıcısının sonuçlarını görüntülemek istememizin bir başka nedenidir. Modelin aslında ne yaptığını bildiğine ve (diğer birçok rastgele dedektör gibi) rastgele tahminlerde bulunmadığına dair güven oluşturmak istiyoruz. Sadece AI puanını değil, metnin hangi LLM'den geldiğini de göstererek, modelin AI yazma stilinin nüanslarını anlama yeteneğine güven oluşturmayı umuyoruz.

  • Son olarak, zaman içindeki kalıpları keşfetmek istiyoruz: Hangi LLM'ler gerçek hayatta ne sıklıkla kullanılıyor? Öğrenciler, dolandırıcılar ve programcılar için tercih edilen LLM'ler hangileri? Bunlar, gelecekteki çalışmalarda cevaplamayı umduğumuz türden sorular.

Sonuç

AI tanımlama özelliğimizi denemenizi ve bu özelliğin, farklı LLM ailelerinin doğuştan gelen kişiliklerini ve stillerini anlamaya yardımcı olması için yararlı olmasını umuyoruz. Daha fazla bilgi için lütfen info@pangram.com adresine ulaşın!


Bradley Emi
Bradley EmiTeknik Direktör, Kurucu Ortak

Bradley, yapay zeka araştırmacısı ve endüstride derin öğrenme ürünleri geliştirme uzmanıdır. Son zamanlarda, yapay zeka ile ilaç keşfi yapan Absci şirketinde derin öğrenme araştırma grubunu yönetmiştir. Daha önce ise Tesla Autopilot'ta bilgisayar görme ekibinin çekirdek üyesiydi.

Bradley, lisansüstü öğrencisiyken Stanford Vision Lab ile derin öğrenme araştırmaları konusunda birçok yayın kaleme almıştır. Stanford Üniversitesi'nden fizik lisans ve yapay zeka yüksek lisans derecelerine sahiptir. Yapay zeka dışında eğitim ve felsefeye de ilgi duyan Bradley, aynı zamanda tutkulu bir golfçüdür.

Bradley Emi'den daha fazlası

İlgili makaleler

LoRA ile ölçeklendirme
Ürün Güncellemeleri

LoRA ile ölçeklendirme

22 Mart 2024
Üçüncü Taraf Araştırma Çalışması, Pangram'ın En Güçlü AI Dedektörü Olduğunu Gösteriyor
Ürün Güncellemeleri

Üçüncü Taraf Araştırma Çalışması, Pangram'ın En Güçlü AI Dedektörü Olduğunu Gösteriyor

30 Ekim 2024
AI Dedektörleri GPT-5'e Karşı İşe Yarar mı?
Ürün Güncellemeleri

AI Dedektörleri GPT-5'e Karşı İşe Yarar mı?

7 Ağustos 2025
Yeni Pangram Ürün Kademeleri
Ürün Güncellemeleri

Yeni Pangram Ürün Kademeleri

15 Ekim 2025
Pangram Metni Güncellemesi: GPT-4o, Claude 3, LLaMA 3
Ürün Güncellemeleri

Pangram Metni Güncellemesi: GPT-4o, Claude 3, LLaMA 3

22 Mayıs 2024
Pangram 3.3 ile tanışın!
Ürün Güncellemeleri

Pangram 3.3 ile tanışın!

13 Mayıs 2026