Veri Madenciliği Dersi 7. Ünite Sorularla Öğrenelim

Kümeleme Analizi

1. Soru

Aşamalı kümeleme yöntemleri nelerdir?

Cevap

Aşamalı kümeleme yöntemleri, veri matrisinde bulunan birimlerin ya da değişkenlerin analizin başlangıç aşamasında kaç küme oluşturduğuna ve küme elemanlarını belirlemede başlangıçta hangi kriterin seçildiğine göre iki temel gruba ayrılır. Bunlar; Birleştirici aşamalı kümeleme yöntemleri (Agglomerative hierarchical clustering prosedures) ve Ayırıcı aşamalı kümeleme yöntemleridir (Divisive hierarchical clustering prosedures).


2. Soru

Birleştirici aşamalı kümeleme yöntemleri nelerdir?

Cevap

Birleştirici aşamalı kümeleme yöntemlerinde, birimlerin birbirleri ile birleştirilmesinde farklı yöntemler kullanılmaktadır. Bunlardan sıklıkla kullanılan ve genel kabul görmüş olanları aşağıdaki gibi sayılabilir.

  • Tek Bağlantı Kümeleme Yöntemi (TekBKY, SINGLE Linkage [SLINK], En Yakın Komşuluk, Nearest Neighbour Method)
  • Tam Bağlantı Kümeleme Yöntemi (TamBKY, COMPLETE linkage Method [CLINK], Furthest Neighbor Method)
  • Ortalama Bağlantı Kümeleme Yöntemi (OrtBKY, AVERAGE Linkage Method, [ALINK])
  • McQuitty Bağlantı Kümeleme Yöntemi (McQuitty linkage Method)
  • Küresel Ortalama Bağlantı Kümeleme Yöntemi (KOBKY, CENTROID linkage Method)
  • Medyan Bağlantı Kümeleme Yöntemi (MBKY, MEDIAN linkage Method)
  • Ward Bağlantı Kümeleme Yöntemi (WBKY, WARD linkage Method, En Küçük Varyans Kümeleme Yöntemi)

3. Soru

Kümeleme analizi varsayımları nelerdir?

Cevap

Kümeleme analizi uygulama aşamasında temel varsayımlar gerektirmemektedir. Ancak analizde kullanılacak olan değişkenlerin seçiminde hassas davranılması gerekmektedir. Değişkenler arasındaki çoklu bağlantıya ve aşırı gözlemlere dikkat edilmelidir.


4. Soru

R Programında tek bağlantı kümeleme yöntemi le veri setine ilişkin uzaklık matrisini bulmak için yapılması gereken nedir?

Cevap

Veri setine ilişkin uzaklık matrisini bulmak için dist.x=dist(x,method=”euclidean”) komutu kullanılır. Bu komut yardımıyla x veri setinde birimler arasındaki Öklid uzaklıkları hesaplanır ve hesaplanan uzaklıklar dist.x matrisine atanır.


5. Soru

Aşamalı olmayan kümeleme yöntemlerinin amacı nedir?

Cevap

Birimlerin kendi içinde homojen ve kendi aralarında heterojen olan kümelere ayrılmasını hedefleyen ve elde edilen kümeler aracılığı ile alt toplum yapılarına ilişkin tahmin yapmayı amaçlayan yöntemlerdir. Aşamalı kümelemede hem birimler hem de değişkenler birbirleriyle farklı benzerlik düzeylerinde kümeler oluştururken, aşamalı olmayan kümeleme yöntemlerinde sadece birimler kümelenmektedir. Birbirleri ile benzer birimlerin aynı kümede toplanması koşuluyla veri setindeki n birimin k sayıda kümeye ayrılması amaçlanmaktadır.


6. Soru

Kümeleme analizinin amacı nedir?

Cevap

Kümeleme analizinin amacı, gruplanmamış verileri benzerliklerine göre sınıflandırmak ve araştırmacıya özetleyici bilgiler elde etmede yardımcı olmaktır.


8. Soru

Kümeleme analizinin aşamaları nelerdir?

Cevap

Kümeleme analizi genellikle dört aşamada uygulanmaktadır. Bunlar; veri matrisinin oluşturulması, benzerlik veya uzaklık matrislerinin hesaplanması, kümelemede esas alınacak yöntemlerin belirlenmesi ve elde edilen sonuçların yorumlanmasıdır.


9. Soru

Dendrogram nedir?

Cevap

Kümeleme analizinde sonuçlar dendrogram (ağaç diyagramı) adı verilen grafiksel yöntemle sunulurlar. Dendrogramlarda bağlantılar, uzaklıklar ve birimlerin bağlanma düzeyleri bir ağaç biçiminde ele alınarak şekillendirilir ve kümelenme süreci bu şekilde ayrıntılı bir biçimde özetlenir. Genellikle dendrogramlar; x ekseninde birimler ve y ekseninde de uzaklıklar olacak şekilde yapılandırılırlar.


10. Soru

Birliktelik kuralları nedir?

Cevap

Birliktelik Kuralları, veri seti içerisinde yer alan kayıtların birbiriyle olan ilişkilerini inceleyerek, hangi olayların eş zamanlı olarak birlikte gerçekleşebileceklerini ortaya koymaya çalışan yöntemler veri madenciliği yöntemleridir. Özellikle pazarlama alanında uygulanmaktadır (Pazar sepet analizleri). Bu yöntemler birlikte olma kurallarını belirli olasılıklarla ortaya koymaktadır.


11. Soru

Aşamalı olmayan kümeleme yöntemlerinin daha çok büyük veri setlerine uygulanmasının nedeni nedir?

Cevap

Aşamalı kümeleme yöntemleri daha çok küçük veri setleri için uygundur. Buna karşılık aşamalı olmayan kümeleme yöntemleri ise daha çok büyük veri setlerine uygulanmaktadır. Bunun nedeni aşamalı olmayan kümeleme yöntemlerinde başlangıçta benzerlik ve uzaklık matrislerinin hesaplanmamasıdır. Ayrıca aşamalı olmayan kümeleme yöntemleri veri setinde bulunan aşırı uç değerlerden daha az etkilenmektedir.


12. Soru

Kümeleme analizi nasıl işlemektedir?

Cevap

Çok değişkenli istatistik yöntemleri arasında yer alan, çok sayıda ve karmaşık yapıdaki veri setinde verileri gruplandırmak ve oluşan grupları karşılaştırmak amacıyla kullanılan kümeleme analizi, uygulaması kolay ve sonuçlarının anlaşılır olması nedeniyle sıkça başvurulan bir yöntemdir. Veri madenciliğinin bir alt türü olan bu yöntemde veriler uzaklık ve benzerliklerine göre kümelere ayrılmakta, kümeler arasındaki farklılıklar ve bu farklılıkların nedenleri üzerinde durulmaktadır. Analiz sonucunda birbirine en çok benzeyen birimler aynı kümelerde toplanmaktadır.


13. Soru

KÜmeleme yöntemleri nelerdir?

Cevap

Kümeleme yöntemleri; uzaklık (distance), benzerlik (similarity) ya da farklılık (dissimilarity) matrisinden yararlanarak birimleri ya da değişkenleri kendi içinde homojen ve kendi aralarında heterojen uygun kümelere ayırırken, kümeleri belirlemede izledikleri yaklaşımlara göre iki temel alt gruba ayrılırlar. Bunlar; Aşamalı kümeleme yöntemleri (Hierarchical Cluster Analysis Methods) ve Aşamalı olmayan kümeleme yöntemleri (Nonhierarchical Cluster Analysis Methods) olarak ele alınmaktadır.


14. Soru

Veri madenciliği yöntemleri nelerdir?

Cevap

Veri sayısının büyüklüğüne bağlı olarak ve istenilen amaçlara göre bazı özel analiz algoritmaları geliştirilmiştir. Veri Madenciliği Yöntemleri sınıflandırma, kümeleme ve birliktelik kuralları olarak ele alınabilir.


15. Soru

Kümeleme analizinde birim ya da değişkenler arasındaki uzaklıkları hesaplamak için kullanılan uzaklık ölçüleri nelerdir?

Cevap

Kümeleme analizinde birim ya da değişkenler arasındaki uzaklıkları hesaplamak için en sık kullanılan uzaklık ölçüsü Öklid uzaklığıdır. Bu uzaklık ölçüsü dışında birimler ya da değişkenler arasındaki uzaklık değerlerinden faydalanarak kümelerin oluşturulmasında kullanılan farklı uzaklık ölçüleri de vardır. Bunlar; Karesel Öklid uzaklığı, Pearson ve karesel Pearson uzaklığı, Manhattan (City-Blok) Uzaklığı, Korelasyon katsayısı ve korelasyon uzaklığı, Açısal uzaklık (cosine measure), Binary Öklid uzaklığı, Gamma benzerlik ölçüsü, Jaccard benzerlik ölçüsü, Minkowski uzaklığı, Mahalonobis uzaklığı, Hotelling T2 Uzaklığı, Canberra Uzaklık ölçüsüdür.


16. Soru

k-Medyanlar Yönteminin özellikleri nelerdir?

Cevap

Medyan değerlerine ait vektörleri küme merkezi olarak kullanan k merkezli algoritmadır. Veri setindeki değişkenlerin asimetrik olduğu durumlarda kullanılmaktadır. Bu yöntemde de uzaklık ölçüsü seçimi keyfi olarak gerçekleştirilebilir, ancak yakınsamanın sağlanıp sağlanmadığı mutlaka göz önünde bulundurulmalıdır. Bu algoritmada, Manhattan uzaklık ölçüsü en sık tercih edilen kümelenme ölçütüdür.


17. Soru

k-ortalamalar yöntemi ile küme sayısını belirlemek için kullanılabilecek yaklaşımlar nelerdir?

Cevap

Birimlerin k-ortalamalar yöntemi ile kümelenmesi için uzaklık matrisi ya da benzerlik matrisi hesaplamak gerekmemektedir. Verilerin kümelenmesinde kullanılacak olan küme sayısını önceden belirlemek yeterlidir. Küme sayısını belirlemek için ise farklı yaklaşımlar bulunmaktadır. Bunlar;

  • Aşamalı kümeleme yöntemlerinden elde edilen dendrogramları inceleyerek karar vermek,
  • Olasılıklı olarak başlangıç noktalarını rassal olarak belirlemek,
  • Ardışık olarak (Küme sayısı 2, 3, 4, ..., k biçiminde) her seferinde küme sayısını bir artırarak oluşan kümelemede birimlerin hangi kümeye ait olduğuna ilişkin küme üyeliklerini belirlemek. Yeni veri yapısına Ayırma (Discriminant) Analizi uygulamak ve en yüksek önemliliği bulunan Wilk’s Lamda değerine sahip olan küme sayısını, uygun kümeleme olarak kabul etmek,
  • İlk nb birimin değişkenlere ait ortalamalarını başlangıç ortalama vektörü olarak ele alıp birimleri bu kümelere atama yaklaşımlarından birini seçmek,
  • Farklı rastgele başlatma konfigürasyonları seçerek küme sayısını bulmak, mümkündür.

18. Soru

Veri madenciliği yönteminin sınıflandırma grubu içerisinde kullandığı teknikler nelerdir?

Cevap

Veri madenciliği yönteminin sınıflandırma grubu içerisinde en sık kullandığı teknik “karar ağaçları”dır. Aynı zamanda lojistik regresyon, diskriminant analizi, sinir ağları ve fuzzy setleri de sıklıkla kullanılmaktadır.


19. Soru

Ayırıcı aşamalı kümeleme yöntemi ile birleştirici aşamalı kümeleme yönteminin farkı nedir?

Cevap

Ayırıcı aşamalı kümeleme yöntemi, Birleştirici aşamalı kümelemenin tersidir. Birleştirici yönteme ilişkin sonuçlardan ayrıcı yönteme ilişkin sonuçlar da elde edilebilir. Aşamalı kümeleme yöntemlerinde, birimlerin benzerlikleri yüzde yüze yakınsarken (similarityà%100), farklılıkları sıfıra doğru yakınsar (dissimilarity à0).


20. Soru

En uzak komşuluk nedir?

Cevap

Tam Bağlantı Kümeleme Yöntemi; Maksimum Yöntem, Sıralama Tip Analizi (Rank Order Typical Analysis), En Uzak Komşu Analizi (Furthest Neighbor Analysis), Çap Yöntemi isimleriyle de anılmaktadır. TamBK yöntemi, TekBK yönteminin aksine en uzak komşu niteliğine sahip birimleri birbirleriyle birleştirerek küme oluşturmayı içermektedir. Yani bu yöntem en uzak komşuluk olarak da bilinmektedir.


Bahar Dönemi Dönem Sonu Sınavı
25 Mayıs 2024 Cumartesi