Pangram Uzayında Görme

Pangram 3.3.2’nin içsel temsillerinin incelenmesi

Yazan: Elyas Masrour, Katherine Thai ve Bradley Emi

Haziran 2026

Görselleştirme yükleniyor…

Şekil 1. Her nokta, bir insan tarafından yazılmış veya yapay zeka tarafından üretilmiş bir belgeyi temsil etmektedir. Animasyon, Pangram’ın katmanları boyunca yapay zeka ve insan tarafından yazılmış belgeler arasındaki ayrışmanın aşamalı olarak ilerlemesini göstermektedir.

01

Giriş

ChatGPT’nin 2022’deki piyasaya sürülmesinden bu yana, yapay zeka destekli yazma şaşırtıcı bir hızla yaygınlaştı. Artık okuduğumuz metinlerin büyük bir kısmında yapay zeka tarafından üretilen metinlere rastladığımızdan, bazı yazı türlerinin bir makine tarafından üretildiğinde değerini yitirdiği açıkça ortaya çıkmıştır. Akademi dünyasında, makalelerin amacı öğrencilerin muhakeme becerilerini geliştirmektir. Ticari alanda ise ürün yorumları, diğer insanların deneyimlerini yansıttığı için değerlidir.

Pangram, bu soruna yönelik en gelişmiş yapay zeka algılama modelleri geliştiren bir araştırma şirketidir. Amiral gemisi ürünümüz, sektörde en düşük yanlış pozitif oranlarına sahip, çok dilli özellikler sunan ve yapay zeka tarafından üretilen içerik ile yapay zeka desteğiyle oluşturulan içerik arasında ayrım yapabilen bir yapay zeka metin algılama modelidir.

2024 yılında ilk teknik raporumuzu yayınladığımızdan bu yana, yapay zeka alanındaki gelişmelerin dalga dalga yayılmasını izlemek için eşsiz bir konumda bulunduk. Araştırmacılarımız aşırı katı içerik filtreleriyle mücadele ettiler ve mod çöküşü sorunuyla da yeterince karşılaştılar1Araştırmacılarımız, dil modellerindeki mod çöküşü üzerine Gwern tarafından yazılan bu makaleyi özellikle tavsiye ediyorlar., ve uzun tirelerin dalgalarından ve “delve” kelimesinden kaçındı.

Amiral gemisi modelimiz, bu dizi sınıflandırma görevine göre ince ayarlanmış bir LLM’dir. Perplexity veya burstiness gibi özel ölçütler kullanmıyoruz. Herhangi bir manuel özellik çıkarma işlemi de yapmıyoruz. AI Phrases adında, kullanıcılarımıza yapay zeka metinlerinde daha sık görülen ifadeler hakkında bilgi sunduğumuz, müşterilere yönelik bir ürünümüz var. Ancak bunlar, model için doğrudan özellik olarak kullanılmıyor. Bir süre sonra insan merak ediyor: Model ne görüyor?

Araştırmacılar olarak bu soru bizim için önemlidir. Kestirme yollara başvurmayı önlemek, modelin istenmeyen davranışlarını düzeltmek ve bu sorunu derinlemesine anlamak konusunda son derece motiveyiz. Bu yazıda, belge düzeyinde analiz kullanarak yaptığımız ilk yorumlanabilirlik çalışmalarımızı özetleyeceğiz.

02

Veriler

Üretim eğitim kümesinden alınan, alan içi ayrılmış örneklerden bir yorumlanabilirlik veri kümesi oluşturduk. Bu sayfadaki etkileşimli gezgin, insan ve yapay zeka arasında eşit olarak bölünmüş, 20 çift sayılı katmana yayılmış dengeli bir 5.000 belgeden oluşan alt kümeyi kullanır. Yapay zeka örnekleri, sınıflandırıcı testi için kullanılan altı model ailesi genelinde aşağıdaki model varyantlarını kapsamaktadır.

Modeller

Claude 3.7 Sonnet
Claude Sonnet 4
Claude Sonnet 4.5
Claude Opus 4
Claude Opus 4.1
Claude Opus 4.5
GPT-3.5 Turbo (Kasım ’23)
GPT-3.5 Turbo (Ocak ’24)
GPT-4 (Mart 2023)

GPT-4 (Haziran ’23)
GPT-4o
GPT-5
GPT-5.1
GPT-5.2
o1
Gemini 2.0 Flash
Gemini 2.5 Flash
Gemini 2.5 Pro

Gemini 3 Pro
DeepSeek R1
DeepSeek V3
Qwen 2.5 7B
Qwen 2.5 72B
Qwen 3 235B
Llama 3.1 8B
Llama 3.1 70B

Kaynak etki alanları

Haberler
Bilimsel Özetler
Ürün Yorumları
İşletme Yorumları
Reddit Yaratıcı Yazım
Reddit ELI5
Kitaplar (Kendi Yayınladıklarım)
Kitaplar (Project Gutenberg)
Vikipedi (İngilizce)
Vikipedi (Çokdilli)
Lang-8 (İngilizce İkinci Dil Olarak)

03

Pangram 3.3.2 Genel Bakış

Pangram 3.3.2, Pangram Labs tarafından 2026 yılında piyasaya sürülen bir yapay zeka algılama modelidir. Pangram 3.3 ile aynı temel modeli kullanır; ancak performansı artıran sonradan yapılan hata düzeltmeleri içerir. Pangram 3.3, Pangram 3.2’nin yerini almış ve yeni nesil büyük dil modellerinin (LLM) çıktılarında, insan tarafından yazılmış metinlerde ve yapay zeka tarafından üretilen uzun metinlerde geri çağırma oranını artırırken, ana dili İngilizce olmayan metinlerdeki yanlış pozitif sonuçları azaltmıştır.

Model kartıPangram 3.3 model kartını okuyunPangram 3.3.2 sürümünün ayrıntılarına göz atın.Makaleyi oku

Yorumlanabilirlik çalışmalarımız devam etmektedir. Bu makale boyunca, yöntemlerimizi geriye dönük olarak Pangram 3.2 ve Pangram 3.1’e de uyguluyoruz.

04

Yöntemler

Etkinleştirme işlemleri

EditLens mimarisi, tek bir yapıya indirgenen kova tabanlı bir sınıflandırma sistemidir ai_yardım_puanı. Bu projede, modelin nihai çıktısını bir kenara bırakarak, bunun yerine modelin öğrendiği iç temsillere odaklanıyoruz. Bunları incelemek için, belirli bir girdi belgesiyle modelin ileri geçişini gerçekleştirip, modelin çeşitli iç katmanlarındaki gizli temsillerini kaydederek aktivasyonları topluyoruz. Bu projede, ağdaki her çift numaralı katman için her belgeye ait aktivasyonları çıkardık.

Boyut Azaltma

Çıkarılan her bir aktivasyon vektörü 5.120 boyutluydu. Temsilleri daha iyi anlayabilmek için bir dizi boyut azaltma tekniği kullandık.

PCA

Temel Bileşen Analizi (PCA), en basit doğrusal izdüşüm yöntemidir: aktivasyon uzayında varyansın en yüksek olduğu yönleri belirler. Bu projede, ağın sonuna doğru varyansın büyük kısmının 1. ve 2. temel bileşenlerde yer aldığını tespit ettik ve bu nedenle bunları birbirlerine göre grafiğe döktük.

UMAP

UMAP, komşuluk yapısını korumak üzere tasarlanmış doğrusal olmayan bir görünüm sunar. Modelin iç uzayında iki belge birbirine yakınsa, UMAP bunları 2B uzayda da yakın tutmaya çalışır. Ancak, kümeler arasındaki eksenler ve mesafeler aşırı yorumlanmamalıdır.

t-SNE

t-SNE, yerel kümeleri ortaya çıkarmada etkili olan bir başka doğrusal olmayan projeksiyon yöntemidir. Bu projenin amaçları doğrultusunda, t-SNE’yi kullanarak, model aileleri veya insan/yapay zeka etiketleri gibi anlamsal açıdan önemli grupların, ağ derinleştikçe gözle görülür şekilde kümelenip kümelenmediğini inceliyoruz.

Doğrusal Problar

Boyut azaltma yöntemlerimizden elde ettiğimiz nitel sonuçları nicel olarak değerlendirmek için doğrusal sondalar kullanıyoruz. Her katman için, basit bir sınıflandırıcının o katmanın aktivasyon vektörlerinden hedef etiketi geri kazanıp kazanamayacağını inceliyoruz. Sondanın doğruluğunun yüksek olması, ilgili ayrımın temsil uzayının doğrusal olarak erişilebilir bir yönünde zaten kodlanmış olduğu anlamına gelir.

05

Yapay Zeka Algılama Görevi

İkili Doğruluk

Ağın genelinde nihai sınıf ayrımının nasıl gerçekleştirildiğini anlamak için, her katmanda doğrusal problar eğitiyoruz. İnsan ve yapay zeka arasında eşit olarak bölünmüş 500 örnek üzerinde, 80:20 eğitim/test dağılımı ile eğitim yapıyoruz. Ağın henüz başlarında bile performansın zaten yüksek olduğunu görüyoruz: 2. katmandan hemen sonra 0,83 doğruluk oranına ulaşıyoruz. Bu, sezgilerimizle örtüşüyor; zira “kelime torbası” modelleri, yapay zeka algılama görevi için genellikle kullanışlı temel modeller olarak kabul edilir. Ağ boyunca doğruluk oranı artarak 24. katmanda 1,0’a ulaşıyor.

Katmanlar arası sonda doğruluğu — Şekil 2. Ayrılmış veriler üzerinde katmanlar arası insan/yapay zeka doğrusal sonda doğruluğu.

Gömülü öğeler yükleniyor…

Şekil 3: Bu ayrım, üç boyut azaltma yönteminin hepsinde açıkça görülmektedir.

06

LLM Sınıflandırması

t-SNE ve UMAP grafiklerinde, belgelerin kendilerini oluşturan modele göre kümeleniyor gibi göründüğünü fark ettik. Bu bizim için sürpriz oldu. Pangram’ın eski sürümlerinde ayrı bir LLM sınıflandırıcı başlığı vardı, ancak bu görev uzun zamandır kaldırılmıştı. Pangram 3.3.2’nin eğitim sürecinde, bir AI belgesinin kaynak modeline karşılık gelen hiçbir etiket verilmemektedir.

Buna rağmen, kaynak model ailesinin etrafında kümeler oluştu. Daha da ilginç olanı ise, bu kümelerin ağın tüm katmanlarında ortaya çıkıyor gibi görünmesidir.

Model Kümelerinin Ortaya Çıkışı

Model ailesine göre aynı gömülü değerleri renklendirin; böylece katmanlar arasında sağlayıcı düzeyindeki geometriyi görebilirsiniz.

Gömülü öğeler yükleniyor…

Şekil 4: Model ailesine göre renklendirilmiş Katman 2-40 gömüleri. Sağlayıcı düzeyindeki kümeler, sonraki katmanlarda daha belirgin hale gelmektedir.

Sonda

Bu olguyu nicel olarak değerlendirmek için, altı model ailesi (Anthropic, OpenAI, Google, Qwen, Llama, DeepSeek) üzerinde, her model ailesi için 500 örnek ve toplamda 3.000 örnek kullanarak, 80:20 eğitim/test dağılımı ile bir sınıflandırıcı eğittik. Sadece Pangram aktivasyonlarını kullanarak belirli bir belgenin kaynak model ailesini sınıflandırabilen bir sonda eğitebildiğimizi ve bunun maksimum top-1 doğruluğunun %91 olduğunu tespit ettik.

Katmanlar arası model sınıflandırıcısının doğruluğu — Şekil 5. Katmanlar arasında model ailesinin doğrusal prob doğruluğu. Kaynak model ailesi, Pangram aktivasyonlarından giderek daha iyi bir şekilde geri kazanılabilir hale gelmektedir.

Ortaya Çıkması Garanti Edilmez

İlk yorumlanabilirlik deneylerimiz, çeşitli modeller üzerinde yapılan testleri içeriyordu. Bizi şaşırtan bir şekilde, “LLM sınıflandırma” yeteneğinin ortaya çıkması, bu projede modeller arasında önemli ölçüde farklılık gösteren tek bulgudan biriydi.

Aşağıdaki şekil, Pangram 3.1, 3.2 ve 3.3.2 modellerinin kümeleme davranışlarını karşılaştırmaktadır. Model, kurum içi son değerlendirmelerimizde ikili insan-yapay zeka görevinde 3.1 modelinden daha iyi performans göstermiş olsa da, Pangram 3.2’de model kümeleri genel olarak Pangram 3.1 veya 3.3.2’ye kıyasla daha az belirgindir.

40. katmanda Pangram 3.1, 3.2 ve 3.3.2’nin t-SNE karşılaştırması — Şekil 6. Pangram 3.1, 3.2 ve 3.3.2 için 40. katmandaki t-SNE. Model ailesi kümelerinin geometrisi, model sürümleri arasında değişiklik göstermektedir.

Bu farkı daha net bir şekilde ortaya koymak için, LLM sınıflandırıcı probunu Pangram 3.1, 3.2 ve 3.3.2 üzerinde karşılaştırıyoruz. Üçü de ilk katmanlarda top-1 doğruluk oranlarını artırıyor; ancak Pangram 3.2 için prob, 12. katmandan sonra düşmeye başlarken, Pangram 3.1 ve 3.3.2’de yüksek seviyede kalıyor.

Pangram 3.1, 3.2 ve 3.3.2 sürümlerinin prob doğruluğu karşılaştırması — Şekil 7. Pangram 3.1, 3.2 ve 3.3.2 için katmanlar arası prob doğruluğu karşılaştırması.

07

İnsancı

“Humanizer’lar”, yapay zeka tarafından üretilen metinleri, yapay zeka algılayıcılarından kaçacak şekilde değiştirmek üzere tasarlanmış bir tür karşıt araç sınıfıdır.2Daha önce bu araçlarla ilgili bir makaleyi burada yayınlamıştık. İnsancıllaştırılmış metnin, aktivasyon uzayında insan ve yapay zeka metinlerine göre nerede konumlandığını görmek için, yaklaşık 1.900 örnekten oluşan ayrı bir “insancıllaştırıcılar” veri kümesi oluşturduk. Bu veri kümesi, üç üretici model (Claude Sonnet 4.5, Gemini 2.5 Pro ve GPT-5), on farklı insancıllaştırıcı hizmet ve orijinal yorumlanabilirlik veri kümesiyle aynı kaynak alanları arasında kabaca dengelenmiştir. Saldırı riskleri nedeniyle, hangi hizmetleri kullandığımızı açıklamıyoruz.

Model, “Humanizers”ı Nasıl Okur?

Humanizer veri setimizdeki bazı örnekler, modelimiz için gerçekten de tespit edilmesi zor örneklerdir. Burada, orijinal eğitim düzeninde olduğu gibi, insanlaştırılmış metinlerin “AI” olarak etiketlendiği durum hariç, insan/AI görevi için aynı doğrusal probu kullanıyoruz. Gördüğümüz kadarıyla, ilk katmandan itibaren bile insanlaştırılmış metinler, doğrudan AI karşılığına kıyasla tutarlı bir şekilde daha insanca olarak algılanmaktadır.

Katmanlar arası Humanizer probu delta — Şekil 8. Katmanlar genelinde doğrudan AI örnekleri ile bunların insanlaştırılmış karşılıkları arasındaki ortalama P(AI) farkı.

Gömme Uzayında İnsanlaştırıcıların Bulunduğu Yerler

Ancak, nihai çıktıların ötesine baktığımızda, insanlaştırılmış metinlerin çok daha zengin bir temsilini görüyoruz. Aşağıda, boyut azaltma yöntemlerimizi insan, yapay zeka ve insanlaştırılmış metinlere uyguluyoruz. Niteliksel olarak, insanlaştırıcıların aktivasyon uzayında ayrı bölümleri işgal etme eğiliminde olduklarını ve insan ile yapay zeka bölgelerinin dışında kümeler oluşturduklarını gözlemleyebiliyoruz.

Hipotezimiz, insan tarafından yazılmış metinler için etiketler olmamasına rağmen, modelin insan tarafından yazılmış, insan ve yapay zeka tarafından üretilmiş metinleri birbirinden ayırt edebilmesidir. Ancak, nihai sonuçta model bu sinyali birleştirmeye zorlanmaktadır ve bunu tutarsız bir şekilde yapmaktadır.

40. katmanda t-SNE, PCA ve UMAP kullanılarak Humanizer boyut indirgemesi — Şekil 9. t-SNE, PCA ve UMAP yöntemleriyle 40. katmanda insan, yapay zeka ve insanlaştırılmış metinler. İnsanlaştırılmış metinler, ana insan ve yapay zeka kümelerinden ayrı, kendine özgü bir bölgeyi kaplamaktadır.

Sonda

Bu hipotezi doğrulamak için, yapay zeka, insan ve insanlaştırılmış metin etiketlerini içeren üç yönlü bir doğrusal prob eğittik. Prob, ağın erken aşamalarında yüksek bir top-1 doğruluk oranına ulaştı ve sonunda %98 seviyesinde sabitlendi.

İnsan, yapay zeka ve insan diline benzeyen metinler için üçlü sınıflandırma — Şekil 10. Katmanlar arasında üçlü sınıflandırma probunun doğruluğu (insan / yapay zeka / insan benzeri).

08

Sonuç

Buradaki çalışmamız, Pangram’ın iç temsillerinin, yalnızca nihai ikili çıktıdan anlaşıldığından daha fazla yapı içerdiğini ortaya koymaktadır. Katmanlar arasında, insan ve yapay zeka tarafından üretilen belgelerin birbirinden ayrıldığını, model ailesine ait bilgilerin ortaya çıktığını ve insan tarafından yazılmış metinlerin aktivasyon uzayında kendine özgü bir bölgeyi işgal ettiğini gözlemliyoruz. Bu bulgular henüz başlangıç aşamasındadır, ancak modelin her şeyi tek bir algılama puanına indirgemeden önce ne öğrendiğini anlamamız için bize yararlı bir yol haritası sunmaktadır.

Bu yazı, yorumlanabilirlik konusundaki çabalarımızın yalnızca ilk adımlarını göstermektedir; ancak kurum içinde bu araştırma yönüne büyük bir heyecan ve ilgi duyuyoruz.

Pangram modelleriyle ilgili yorumlanabilirlik ve açıklanabilirlik konusundaki vizyonumuz, bu modellerin aşağıdakileri yapabilmesidir:

Model davranışına ilişkin kurum içinde daha iyi bir anlayış sağlamak.
Her bir Pangram sonucu için destekleyici kanıtlar ve daha net açıklamalar sunun.

Yorumlanabilirlik, yapay zeka tespit araştırmaları veya bu çalışmadaki diğer konularla ilgilenen bir araştırmacıysanız, lütfen elyas@pangram.com adresinden bizimle iletişime geçin.

adresinden güncellemelerimize abone olun

En son haberlerimizden ve tekliflerimizden haberdar olun.

soc2

SOC2 TİP 2

AssuranceLab tarafından onaylanmıştır

© 2025 Pangram. Tüm hakları saklıdır.

info@pangram.com

Topluluğumuza katılın

© 2025 Pangram. Tüm hakları saklıdır.

Pangram Uzayında Görmek | Pangram Labs