Veri Madenciliği Dersi 7. Ünite Özet
Kümeleme Analizi
- Özet
- Sorularla Öğrenelim
Kümeleme Analizi Kavramı
Çok değişkenli istatistik yöntemleri arasında yer alan, çok sayıda ve karmaşık yapıdaki veri setinde verileri gruplandırmak ve oluşan grupları karşılaştırmak amacıyla kullanılan kümeleme analizi, uygulaması kolay ve sonuçlarının anlaşılır olması nedeniyle sıkça başvurulan bir yöntemdir. Veri madenciliğinin bir alt türü olan bu yöntemde veriler uzaklık ve benzerliklerine göre kümelere ayrılmakta, kümeler arasındaki farklılıklar ve bu farklılıkların nedenleri üzerinde durulmaktadır. Analiz sonucunda birbirine en çok benzeyen birimler aynı kümelerde toplanmaktadır. Bu tür kümeler kendi içlerinde homojen farklı kümelerle de heterojen bir yapıya sahip olurlar. Kümeleme analizinin temel amacı, hangi kümeye ait olduğu bilinmeyen bir grup verinin, sınıflandırılarak anlamlandırılmasıdır. Dolayısıyla kümeleme analizi birimleri ya da değişkenleri temel özelliklerine göre sınıflandırmak için kullanılmaktadır. Kısaca kümeleme analizinin genel amacının benzer olanları farklı olandan ayırmak olduğu ifade edilebilir.
Kümeleme analizi, çok değişkenli ham veri setindeki gözlemlerin sahip oldukları özellikler bakımından doğal grup yapılarını belirlemeyi, homojen alt gruplara ayırmayı sağlayan istatistiksel yöntemler topluluğudur. Sağlık, ziraat, biyoloji, psikoloji, sosyoloji, arkeoloji gibi gözlemlerin sınıflandırılmasına ihtiyaç duyulan pek çok bilim dalının faydalandığı uygulamalarda sıklıkla kullanılan bir yöntemdir. Kümeleme analizi, diğer çok değişkenli analiz yöntemi olan diskriminant analizinde olduğu gibi tahmin amaçlı kullanılmamakta ve faktör analizinde olduğu gibi de varsayımları bulunmamaktadır .
Kümeleme analizi genellikle dört aşamada uygulanmaktadır. Bunlar; veri matrisinin oluşturulması, benzerlik veya uzaklık matrislerinin hesaplanması, kümelemede esas alınacak yöntemlerin belirlenmesi ve elde edilen sonuçların yorumlanmasıdır.
Uzaklık ve Benzerlik Ölçüleri
Kümeleme analizinde oluşturulan kümeler, birbirine yakın birimlerin ya da değişkenlerin oluşturdukları grup olarak tanımlanabilir. Kümeleme analizinde birim ya da değişkenler arasındaki uzaklıkları hesaplamak için en sık kullanılan uzaklık ölçüsü Öklid uzaklığıdır. Öklid uzaklığı iki obje arasındaki benzerliği ölçmede en yaygın kullanılan uzaklık ölçüsü olup iki obje arasına çizilecek bir doğrunun uzunluğunu temel alır. Bu uzaklık ölçüsü dışında birimler ya da değişkenler arasındaki uzaklık değerlerinden faydalanarak kümelerin oluşturulmasında kullanılan farklı uzaklık ölçüleri de vardır. Bunlar; Karesel Öklid uzaklığı, Pearson ve Karesel Pearson uzaklığı, Manhattan (City-Blok) Uzaklığı, Korelasyon katsayısı ve korelasyon uzaklığı, Açısal uzaklık (cosine measure), Binary Öklid uzaklığı, Gamma benzerlik ölçüleri gibi.
Kümeleme Yöntemleri
Kümeleme yöntemleri; uzaklık (distance), benzerlik (similarity) ya da farklılık (dissimilarity) matrisinden yararlanarak birimleri ya da değişkenleri kendi içinde homojen ve kendi aralarında heterojen uygun kümelere ayırırken, kümeleri belirlemede izledikleri yaklaşımlara göre iki temel alt gruba ayrılırlar. Bunlar; Aşamalı kümeleme yöntemleri (Hierarchical Cluster Analysis Methods) ve Aşamalı olmayan kümeleme yöntemleri (Nonhierarchical Cluster Analysis Methods) olarak ele alınmaktadır. Her iki yöntemde de ortak amaç kümeler arasındaki farklılıkları ve kümeler içi benzerlikleri en yüksek düzeye çıkarmaktır.
Aşamalı Kümeleme Yöntemleri
Aşamalı kümeleme yöntemleri, birimleri/değişkenleri birbirleri ile farklı aşamalarda bir araya getirerek ardışık biçimde kümeler belirlemeyi ve bu kümelere girecek elemanların hangi uzaklık (ya da benzerlik) düzeyinde küme elemanı olduğunu belirlemeye yönelik yöntemlerdir. Aşamalı kümeleme yöntemleri, veri matrisinde bulunan birimlerin ya da değişkenlerin analizin başlangıç aşamasında kaç küme oluşturduğuna ve küme elemanlarını belirlemede başlangıçta hangi kriterin seçildiğine göre iki temel gruba ayrılır. Bunlar; Birleştirici aşamalı kümeleme yöntemleri (Agglomerative hierarchical clustering prosedures) ve Ayırıcı aşamalı kümeleme yöntemleridir (Divisive hierarchical clustering prosedures).
Birleştirici Aşamalı Kümeleme Yöntemleri
Birleştirici aşamalı kümeleme yöntemleri, başlangıçta veri setinde bulunan tüm birimlerin farklı birer küme oluşturduğu kabul edilerek analize başlanır. Birleştirici aşamalı kümeleme yöntemleri, birimlerin oluşturduğu kümelerin şekillenmesinde, birbirleri ile hangi aşamada ve hangi benzerlik düzeyinde ortak özelliklere sahip kümeler oluşturduklarını göstermeleri açısından yaygın olarak kullanılan kümeleme yaklaşımıdır.
Ayırıcı Aşamalı Kümeleme Yöntemleri
Ayırıcı aşamalı kümeleme yöntemlerinde, başlangıçta veri setinde bulunan tüm birimlerin bir küme olduğu varsayılarak analize başlanır. Diğer bir ifadeyle işlem, birleştirici aşamalı kümeleme yönteminde olan aşamaların tam tersine işler.
Aşamalı Olmayan Kümeleme Yöntemleri
Birimlerin kendi içinde homojen ve kendi aralarında heterojen olan kümelere ayrılmasını hedefleyen ve elde edilen kümeler aracılığı ile alt toplum yapılarına ilişkin tahmin yapmayı amaçlayan yöntemlerdir. Aşamalı kümelemede hem birimler hem de değişkenler birbirleriyle farklı benzerlik düzeylerinde kümeler oluştururken, aşamalı olmayan kümeleme yöntemlerinde sadece birimler kümelenmektedir. Örneğin; kabul gören sağlık veya ekonomik göstergeler bakımından ülkeler 4 farklı kümeye ayrılmak istenilebilir. Bu kümeler ise, geri kalmış, az gelişmiş, gelişmekte olan, gelişmiş ülkeler olarak isimlendirilebilir.
Aşamalı kümeleme yöntemleri daha çok küçük veri setleri için uygundur. Buna karşılık aşamalı olmayan kümeleme yöntemleri ise daha çok büyük veri setlerine uygulanmaktadır. Bunun nedeni aşamalı olmayan kümeleme yöntemlerinde başlangıçta benzerlik ve uzaklık matrislerinin hesaplanmamasıdır. Ayrıca aşamalı olmayan kümeleme yöntemleri veri setinde bulunan aşırı uç değerlerden daha az etkilenmektedir. Aşamalı olmayan Kümeleme Yöntemleri arasında en yaygın kullanılan yöntem K-ortalamalar kümeleme (k-means clustering, MacQueens’ Method) yöntemidir. Bu yöntem birçok istatistik hazır yazılımda bulunmaktadır. Bunun dışında Medoid kümeleme ve Fuzzy kümeleme gibi aşamalı olmayan kümeleme yöntemleri de bulunmaktadır.
R Programında K-Ortalamalar Kümeleme Yöntemi Uygulaması ve Sonuçlarını Görmek
Kümeleme analizi uygulamalarının yapılması ve yorumlanması hakkında bilgi ve beceri kazanmak araştırmacıların işlerini oldukça kolaylaştırmaktadır. Bu işlem için bilişim teknolojilerinin kullanımı oldukça önemlidir. Bilgisayar ve konu ile ilgili yazılım kullanımını bilmek, verileri analiz etmek, sonuçları yorumlayabilmek ve rapor hâline getirebilmek hem zaman hem de kaynak kullanımı bakımından uygulamacılara avantaj sağlamaktadır.