Sosyal Ağ Analizi Dersi 5. Ünite Özet
Ağlarda Toplulukların Belirlenmesi
- Özet
- Sorularla Öğrenelim
Giriş
Ağlarda, bazı düğümler arasında belli özelliklerin sağlanmasıyla topluluklar oluşmaktadır. Topluluk tanımı konusunda herkesin üzerinde uzlaştığı ortak bir tanım yoktur. Yapılan topluluk tanımları, elde bulunan örneğe veya yapılan uygulamaya göre değişmektedir.
En basitinden topluluk, ortak bazı özelliklere sahip olan bir grup insan olarak tanımlanabilir. Topluluklarda bulunan insanlar birbirlerini destekler ve ihtiyaçlarını gidermede birbirlerine yardımcı olurlar. Topluluklar; kan bağı, din, dil, tarih, bölge, kültür gibi ortak özelliklerle birbirine bağlı sosyal organizasyonlardır.
Topluluk
Tek bir topluluk tanımı olmamakla birlikte, toplulukların en belirgin özelliği kendi içlerindeki bağlantı sayısının çok, dışarıları ile olan bağlantı sayılarının ise az olmasıdır (Fortunato, 2010). Bu temel özellikten hareketle bile uygulamaya dönük çok sayıda topluluk tanımı üretilebilir. Yönsüz bir çizgenin içindeki maksimum bağlantı sayısının N(N-1)/2 olacağını hatırlarsak, düğüm sayısı 1-10 arasında olan çizgelerin maksimum bağlantı sayılarının 0 1 3 6 10 15 21 28 36 45 şeklinde olacağını hesaplayabiliriz.
Sosyal ağların istatistiksel özellikleri şöyle sıralanabilir (McGlohon vd., 2011):
- Kalın kuyruklu derece dağılımları söz konusudur. Birkaç düğümün bağlantı sayısı çok fazla, çok sayıda düğümün ise komşu sayısı azdır.
- Ağlarda düğümler kümeler (topluluk-cluster) oluştururlar ve ağların yarıçapları küçüktür. Ağdaki bir düğümden diğerine birkaç sıçrama ile ulaşabilirsiniz. Genelde ağlarda kuvvet yasaları dağılımları (Power Law) geçerlidir.
- Ağlarda zaman içinde yarıçap küçülür ve yoğunluk artar. Dev bileşenin dışında küçük bileşenlerin büyüklükleri sabittir.
Sosyal ağların yukarıda belirtilen istatistiksel özelliklerini incelediğimizde, ağlarda düğümlerin kümeler oluşturduklarını görürüz. Ağlardaki bu küçük kümeler birleşerek daha sonra dev bir bileşen oluştururlar. Bir topluluk, kendi üyeleri arasındaki bağlantıları ağın geri kalanına göre daha fazla olan düğümler olarak tanımlayabilir. Gruplar içi bağlantılar, gruplar arası bağlantılardan daha fazla ise bu gruplar topluluk adını alırlar.
Toplulukların içindeki bağlantı sayıları, topluluklar arasındaki bağlantı sayılarına göre çok daha fazla olmaktadır. Çok büyük ağlarda ve çizgelerde ise bu iş ancak bilgisayar yardımı ile yapılabilir.
Ağların genelde bir çekirdeği ve bu çekirdeğin çevresinde de ahtapotun veya denizanasının uzantılarına, kollarına benzeyen uzantıları bulunur.
Ağların büyük ölçekli yapılarını incelediğimizde topluluk yapılarını görürüz. Büyük bir ağın içindeki yoğun ağlara “topluluk” (community) adını veriyoruz.
Topluluklar neden önemlidir? Topluluklar bir ağın içindeki fonksiyonel birimlere karşı geldikleri için önemlidirler. Örneğin, bir hücrenin içindeki bir topluluk bir motife karşı gelebilir ve bizim için bu topluluk hayati bir ürünü sentezleme veya düzenleme fonksiyonunu yerine getirebilir. Bir sosyal ağdaki bir topluluk ise, ortak bir ilgi alanı, ortak bir iş yeri veya ortak aile bağları gibi bağlar sayesinde ya da bağlarla oluşur. Kısaca ağlarda fonksiyonları düzenlemek, geliştirmek, iyileştirmek istersek öncelikle toplulukları ve bu toplulukların fonksiyonlarını belirlemeliyiz. Son yıllarda gündeme gelen “ağ ilac”nı da bu çerçevede değerlendirmemiz gerekir.
Ağ ilacı (network medicine) yeni bir konudur ve topolojik ağ özellikleri ile bir hastalık (biyolojik fonksiyon) arasında ilişki kurmaya çalışır. Belirli bir hastalığın moleküler karmaşıklığını araştırarak, hastalık modüllerini ve patikalarını bulmaya uğraşır. Bu tür araştırmaların sonucunda, belirli bir hastalık ile ilgili yeni hastalık modüllerinin ve genlerinin bulunması amaçlanmaktadır. Barabasi, her hastalığın kendine özgü, biricik bir modülünün olduğunu ama hastalık modüllerinin kesişimlerinin de bulunduğunu göstermiştir
Ağlarda fonksiyonları düzenlemek, geliştirmek, iyileştirmek istersek öncelikle toplulukları ve bu toplulukların fonksiyonlarını belirlemeliyiz.
Topluluk, sizin de kolaylıkla anlayabileceğiniz gibi bir düğümler kümesidir ve çizgenin bir alt çizgesi olarak düşünülebilir. Şimdi bir C alt çizgesi için C’nin kendi içindeki yoğunluğunun ve C’nin kümeler arası yoğunluğunun (dış yoğunluk) nasıl hesaplanabileceğini gösterelim. Bir çizgenin genelinde N düğüm olduğunu varsayalım. Herhangi bir alt çizgeyi C ile gösterirsek ve bu alt çizgede NC tane düğüm varsa, bu alt çizgenin içindeki yoğunluğu şu şekilde hesaplayabiliriz:
C’nin iç yoğunluğu = C’nin içindeki bağlantı sayısı / [NC(NC-1)/2]
Şimdi de kümeler arası yoğunluğu hesaplayalım:
C’nin dış yoğunluğu = C’nin kümeler arası bağlantı sayısı / [NC(N-NC)]
Uyum Modeli
1896 yılında bir Fransız psikoloğu olan Gustave Le Bon, kollektif davranış biçimi için bir açıklama getirdi ve kalabalığın, yığınların üyeleri üzerinde hipnotik bir etki yaptıklarını gözledi. Kalabalıklar, belirli bir hayat biçimi varsayıyorlar ve bireylerin duygularını karıştırarak akıl dışı hareketlere neden oluyorlardı. Büyük şehirlerde kırmızı ışıkta karşıya geçmeyi bekleyen kalabalığın içinden biri kırmızı ışıkta karşıya geçmeye başladığında, diğer insanların da bunun yasal olup olmadığını düşünmeden onu izlediklerini gözleyebilirsiniz. Bu olay belirli bir davranış biçiminin, uygun olsun olmasın kalabalığa nasıl bulaştığını, nasıl sirayet ettiğini iyi bir şekilde anlatmaktadır.
Uyum her grup üyesinin diğer grup üyelerine bir patika ile ulaşması ile başlıyor, bu patikalar da grup üyeleri arasındaki sosyal tutkalı oluşturarak grubu bir arada tutuyordu. Gruptaki uyumun gücü, bağlantılı birey sayısına bağlıydı. Güçlü uyuma sahip gruplarda her üye diğer üyelerle bağlantı içindeydi. Uyumlu grupların birbirlerinin içine yuvalandıkları da bir başka gözlemdi.
Yapısal uyumun beş özelliği vardı:
- Bireyler topluluğunun nasıl bir araya geldiğini tanımlıyordu,
- Yapısal uyum bir grup özelliği olarak açıklanıyordu,
- Sürekliydi,
- Bireyler arasındaki sosyal ilişkilerin gözlenmesine dayanıyordu,
- Grup büyüklüğü ile ilgisi yoktu.
Uyum modeli; bir fikrin, bir ürünün önceki ve potansiyel kullanıcıları arasındaki sosyal yakınlığını, potansiyel kullanıcıların uyum kararını verme olasılığını kestirmede kullanıyordu. Bu model, sorunların gözlem ve tartışma ile çözüldüğü sosyal süreçlere odaklanıyordu.
Yapısal Eş Değerlilik Modeli
Yapısal eş değerlilik modeli 1982 yılında Burt tarafından oluşturuldu. Bu modele göre kişi, bir yeniliği kendine yapısal olarak eş değer olarak algıladığı kişiler kullandığında kullanıyordu. Ağdaki yapısal eş değerlilik ağdaki o kişinin pozisyonu ile ilgiliydi. Kümelerinde merkezî durumda olan iki kişi arasında yapısal eş değerlilik vardı ve bu kişiler birbirlerini sübjektif olarak referans noktası alıyorlardı. Ona göre rekabet, yayılma sürecini başlatan birinci güçtü
Diğer önemli bir ağ kavramı ise, düğüm benzerliğidir. İki düğümün ne zaman benzer olduğu veya hangi düğümlerin bir düğüme benzediği sorusu ağların analizi açısından yararlı bir sorudur. Bu tür benzerlik “yapısal benzerlik” olarak adlandırılır. İki düğüm, ağda komşularının çoğunu paylaşmaları durumunda yapısal olarak eş değer kabul edilirler. Yapısal benzerlik Öklidyen uzaklığın bir fonksiyonudur. Konuyla ilgili olarak Sayfa 83’deki denklemler incelenebilir
Bir ağda komşu düğüm kümeleri A ve B olsun. Bu durumda A ve B’nin ortak arkadaşlarının sayısı şöyle ifade edilebilir: σ = |A ∩ B|
Dikkat edilirse bu ifadede ortak arkadaşların sayısı normalize edilmemiştir. Bu sayı, derecesi büyük düğümler az sayıda ortak arkadaşa sahip olsalar bile yüksek olabilir. Bu sayının normalize edilerek kullanılması ile çeşitli benzerlik ölçüleri elde edilebilir ve bu ölçü ‘Jaccard Benzer’liği olarak adlandırılır: σ!"##"$% = |A ∩ B|/ |A ∪ B|
Şimdi de kosinüs benzerliğini hesaplayalım: σ!"#$%ü# = A . B/ |A| . |B|
Hiyerarşik Kümelenme
Ağlarda topluluk yapısının incelenmesinin tarihi eskidir. Ağlarda toplulukların bulunması konusu 70’li yıllara kadar geriye gitmektedir. Bu konu çizge kuramında matematikçiler ve bilgisayarcılar tarafından çizge bölüntüleme (graph partitioning), sosyal ağlarda ve sosyolojide ise topluluk bulma (community detection) ve hiyerarşik kümeleme adlarıyla anılmaktadır (Newman ve Girvan, 2004). Hiyerarşik kümelenme algoritması bir dizi nesneyi benzerliklerine göre bir soy ağacında (dendogram) düzenler. Benzerlik ise bu nesneler arasındaki bir uzaklık fonksiyonu ile bulunur. Birbirlerine benzer veya yakın olan nesneler aynı kümelerde toplanır. Sürekli olarak aynı işlemlerin tekrarlanması yoluyla her adımda en yakın kümeler yeni kümelerde birleştirilir. Sosyal ağlarda topluluk bulmada yaygın olarak kullanılan eski bir yöntem “hiyerarşik kümeleme” yöntemidir. Bu yöntem tek bir teknik olmaktan çok bir teknikler kümesi olarak düşünülebilir. Bu tekniklerin temel ilkesi, bir ağdaki düğümlerin ne kadar kuvvetli bağlarla bağlantılı olduklarına ilişkin bir ölçünün geliştirilmesine dayanır. Daha sonra ise bu ölçü ile kuvvetli bir şekilde bağlı olan düğümleri gruplayarak ilgilendiğimiz ağı topluluklara bölebiliriz. Bu çerçevede, düğümlerin ne kadar kuvvetle birbirlerine bağlı olduklarını ölçebilen ölçü ve bu düğümlerin gruplanmasında kullanılan farklı teknikler hiyerarşik kümelenme teknikleri arasındaki farklılıkları oluşturur. Düğümler arasındaki bağlantının gücünü ölçen bir ölçü belirlendikten sonra hiyerarşik olarak düğümler gruplanmaya başlar. Önce düğümler küçük gruplarda toplanır ve daha sonra bu küçük gruplar daha büyük gruplarda birleştirilir. Kümelemeyi tekli bağlantı (single linkage), tam bağlantı (complete linkage) ve ortalama bağlantı (average linkage) yöntemleri ile gerçekleştirmek mümkündür. Bunların arasında ortalama bağlantı yöntemi genelde daha iyi sonuçlar verir.
Hiyerarşik kümelenmede başlangıçta her düğüm tek bir kümeyi oluşturur. Daha sonra kümeler birleştirilerek yeni kümelere ulaşılır. Uygulamada seçtiğimiz bağlantı yöntemi, iki küme arasındaki uzaklığın hangi tanımla ölçüleceğini belirler.
En yakın komşu yöntemi (nearest neighbor method) adını da alan tekli bağlantı yönteminde, iki küme arasındaki uzaklık bir kümedeki gözlem ile diğer kümedeki gözlem arasındaki minimum uzaklıktır. Tekli bağlantı yöntemi kümeler birbirinden açık bir şekilde ayrıldığında iyi bir tercihtir.
Tam bağlantı yönteminde, iki küme arasındaki uzaklık bir kümedeki gözlem ile diğer kümedeki gözlem arasındaki maksimum uzaklıktır.
Ortalama bağlantı yönteminde ise gözlem çiftleri arasındaki uzaklıkların ortalaması, iki küme arasındaki uzaklık olarak tanımlanır.
Dendogramlar
Hiyerarşik kümelenme algoritması bir dizi nesneyi benzerliklerine göre bir soy ağacında yani dendogramda düzenlenir. Dendogram, aşağıdan yukarıya doğru okunmalıdır.
Konuyla ilgili olarak Sayfa 87’deki Şekil 5.7 ile Sayfa 88’deki Şekil 5.8 ve Şekil 5.9 incelenebilir.