Veri Madenciliği Dersi 4. Ünite Sorularla Öğrenelim

Benzerlik Ve Uzaklık Ölçüleri

1. Soru

R ile Minkowski uzaklığı hesaplayabilmek için R’nin temel paketlerinden stats paketinde yer alan dist() fonksiyonundan yararlanılır. Bu fonksiyon içerisinde Minkowski uzaklık ölçüsünün ? değeri nasıl belirtilmektedir?

Cevap

R ile Minkowski uzaklığı hesaplayabilmek için R’nin temel paketlerinden stats paketinde yer alan dist() fonksiyonundan yararlanılır. Ancak Minkowski uzaklığını hesaplayabilmek için ayrıca bir p parametre değerinin girilmesi gerekmektedir. p parametresinin değeri aslında Minkowski uzaklık ölçüsünün kuvveti olan ve nesneler arası farklara verilen ağırlığı ifade eden ? değeridir.

Minkowski uzaklık değerlerini hesaplarken;

  1. p = 1 alınması hâlinde Manhattan (City-Block) uzaklığı değerlerinin
  2. p = 2 alınması hâlinde ise Öklid uzaklığı değerlerinin

elde edilebildiği komut dizileri izleyen yapıya sahiptir.


2. Soru

R ile Pearson korelasyon katsayısını hesaplayabilmek için R’nin temel paketlerinden stats paketinden yararlanılabilir. Bu amaçla ilgili pakette hangi fonksiyon kullanılmalıdır?

Cevap

R ile Pearson Korelasyon katsayısını hesaplayabilmek için R’nin temel paketlerinden stats paketinde yer alan cor() fonksiyonundan yararlanılır.

cor() fonksiyonu yardımıyla her biri n adet gözlem değeri içeren x ve y değişkenleri sütun vektörleri arasındaki Pearson korelasyon katsayısı hesaplanır. cor() fonksiyonunun temel parametreleri, değişkenlerin gözlem değerleri vektörleri x ve y ile hesaplanmak istenen korelasyon katsayısı tipinin seçimi için method parametreleridir. Şayet method parametresi için herhangi bir atama yapılmazsa varsayılan olarak Pearson korelasyon katsayısı hesaplanır. Bu fonksiyon ile ilgili yardım için, help(“cor”) komutundan yararlanılabilir.


3. Soru

Sıralayıcı nitelik bakımından iki nesnenin karşılaştırılması gerektiğinde nasıl bir uzaklık değeri kullanılabilir?

Cevap

Sıralayıcı nitelik bakımından iki nesne karşılaştırıldığında durum biraz daha karmaşıklaşır. Örneğin bir araştırmada üretilen bir ürünün kalitesinin {kötü, zayıf, orta, iyi, mükemmel} olarak değerlendirildiğini varsayalım. Bu şekilde nitelendirilen iki ürünün benzerliklerini ölçmek için ilk olarak niteliğin her bir sonucuna 0 veya 1’den başlamak suretiyle {kötü = 0, zayıf = 1, orta = 2, iyi = 3, mükemmel = 4} şeklinde tamsayı değerler atanır. İlgilenilen niteliğin ortaya çıkış biçimleri bu şekilde tam sayı değerlerle ifade edildikten sonra, nesneler arası uzaklık değeri

d(x, y) = |x – y|

eşitliği yardımıyla elde edilir. Elde edilen uzaklık değeri [0,1] aralığında değer alacak biçimde dönüştürülmek istendiğinde ise

d(x, y) = |x – y| / (n –1)

eşitliği kullanılır. Eşitlikte n, niteliğin ortaya çıktığı sonuç sayısıdır. Dönüşümler konusunda ele alındığı üzere, uzaklık değeri yardımıyla benzerlik değeri

s(x, y) = 1 – d

eşitliği yardımıyla hesaplanır.


4. Soru

Mahalanobis uzaklığının R ile hesaplanabilmesi için stats paketinden yararlanılabilir. Bu amaçla ilgili pakette hangi fonksiyon kullanılmalıdır?

Cevap

Mahalanobis uzaklığının R ile hesaplanabilmesi için stats paketi içerisinde yer alan mahalanobis() fonksiyonu kullanılmaktadır.

mahalanobis() fonksiyonun temel parametreleri, uzaklık değerleri hesaplanmak istenen değerler vektörünü ifade eden x, dağılımın ortalama vektörü olan center ve örneklem kovaryans matrisini ifade eden cov parametreleridir. Bu fonksiyon ile ilgili yardım için, help(“mahalanobis”) komutundan yararlanılabilir.


5. Soru

İki sonuçlu (binary) değişkenler nasıl değerler alır?

Cevap

İki sonuçlu (binary) değişkenler, ölçüm değerleri sınıflama yoluyla elde edilen nitel değişkenlerdir. Bu değişkenler sadece evet/hayır, var/yok, erkek/kadın, doğru/yanlış gibi değerler alırlar.


6. Soru

Öklid uzaklık ölçüsünün varsayımları ve değer aralığı nedir?

Cevap

Öklid uzaklık ölçüsü, değişkenlerin birbirinden bağımsız olduklarını varsayar. Aynı zamanda L2 norm olarak da bilinen Öklid uzaklığının hesaplanabilmesi için verilerin oransal ya da aralıklı ölçekle ölçülmüş olması gerekir. Öklid uzaklığı “sıfır” ile “sonsuz” arasında değerler alır yani tanım aralığı [0,?)’dur.


7. Soru

Benzerlik ölçülerinin alabileceği değerler, genel olarak hangi aralıkta yer almaktadır?

Cevap

Benzerlikler temel olarak [-1,1] arasında bir sayısal değer ile ifade edilebilmelerine rağmen, genellikle normalleştirilerek [0,1] arasında ölçeklendirilirler. Bu durumda “0” nesneler arasında hiç benzerliğin olmadığını, “1” ise ilgili nesnelerin tam benzer olduklarını, bir diğer ifadeyle aynı (özdeş) nesneler olduklarını ifade eder.


8. Soru

Pearson korelasyon katsayısı hangi amaçla kullanılmaktadır?

Cevap

Doğrusal ilişki katsayısı olarak da bilinen Pearson korelasyon katsayısı, iki veya daha fazla ve en az aralıklı ölçeğe uygun şekilde ölçümlenmiş n adet gözlem içeren değişkenler arasındaki doğrusal ilişkinin yönünün ve derecesinin belirlenmesinde kullanılan bir katsayıdır ve r sembolü ile gösterilir. Aynı zamanda Pearson korelasyon katsayısı iki değişkenin gözlem değerleri arasındaki benzerliğin de bir ölçüsüdür.


9. Soru

Yakınlık ifadesinin, benzerlik ve uzaklık kavramlarıyla ilişkisi nedir?

Cevap

Hesaplamalar sonucunda elde edilen benzerlik değeri arttıkça iki nesne arasındaki benzerliğin de arttığı anlaşılırken bunun tam tersine elde edilen uzaklık değeri azaldıkça bu iki nesne arasındaki benzerliğin arttığı anlaşılmaktadır.

Bu ifadelerden yola çıkarak iki nesne arasındaki benzerlik s(x, y) olarak tanımlandığında, ilgili iki nesne arasındaki uzaklık d(x, y) = 1 – s(x, y) olarak tanımlanır. Veri madenciliği çalışmalarında benzerlik ve uzaklık kavramlarının ortak ifadesi olarak yakınlık ifadesi de kullanılmaktadır.


10. Soru

R ile Açısal Benzerlik (Cosine Similarity) değerini hesaplayabilmek için lsa paketinden yararlanılabilir. Bu amaçla ilgili pakette hangi fonksiyon kullanılmalıdır?

Cevap

ile Açısal Benzerlik (Cosine Similarity) değerini hesaplayabilmek için lsa paketinde yer alan cosine() fonksiyonundan yararlanılır. Dolayısıyla hesaplamalardan önce library(lsa) komutu ile paketin R’de kullanıma hazır hâle getirilmesi gerekir.

lsa paketi içerisinde yer alan cosine() fonksiyonu yardımıyla her biri n adet gözlem değeri içeren x ve y değişkenleri sütun vektörleri arasındaki açının kosinüsü, yani açısal benzerliği hesaplanır. cosine() fonksiyonunun temel parametreleri, veri vektörleri olan x ve y parametreleridir. Bu fonksiyon ile ilgili yardım için, help(“cosine”) komutundan yararlanılabilir.


11. Soru

Karesel Öklid uzaklığının, Öklid uzaklığından farkı nedir?

Cevap

Karesel Öklid uzaklığı ise Öklid uzaklığına benzer biçimde hesaplanır. Tek farkı değişkenlere göre toplam uzaklığın karekök alınmadan hesaplanmasıdır. Yani Öklid uzaklığının karesidir.

Karesel Öklid uzaklığının hesabında karekök alınmadığından Öklid uzaklığına göre veri kümesi içerisinde yer alan aykırı değerlere (outliers) daha fazla ağırlık verme eğilimindedir. Aykırı değerler veri kümesinin genel özelliklerinden belirgin bir şekilde farklılık gösteren gözlem değerleridir. Bu farklılıkların analizler üzerinde etki gösterip göstermeyeceğine ilişkin karar araştırmacı tarafından verildikten sonra ilgili uzaklık ölçüsü hesaplanmalıdır.


12. Soru

Uzaklık nedir?

Cevap

İki nesne arasındaki düzensizliğin veya bozukluğun bir ölçüsü olan uzaklık, farklılığın özel bir sınıfı, alt kümesidir.


13. Soru

İki sonuçlu değişkenler içeren gözlem çiftleri arasındaki yakınlığın belirlenmesinde hangi ölçülerden yararlanılabilir?

Cevap

İki sonuçlu değişkenler için benzerlik veya uzaklık ölçüm değerlerin hesaplanabilmesi için her bir nesne incelenen değişkenlere ilişkin aldığı değerlerden oluşan bir vektör şeklinde ifade edilir. İki sonuçlu değişkenler içeren gözlem çiftleri arasındaki yakınlığın belirlenmesinde Öklid, Karesel Öklid, Büyüklük Farkı (Size Difference), Örüntü Farkı (Pattern Difference), Lance ve Williams Uzaklık Ölçüsü, Biçim Farkı (Shape Difference) ve Jaccard Benzerliği (Jaccard Similarity) gibi birçok benzerlik ya da uzaklık ölçülerinden yararlanılmaktadır.


14. Soru

Benzerlik nedir?

Cevap

Genel bir tanımı olmamasına rağmen, iki nesne arasındaki benzerlik, iki nesnenin birbirine benzeme derecesinin sayısal bir ölçüsü olarak tanımlanabilir. Veri madenciliği çerçevesinde ise benzerlik genellikle nesnelerin özelliklerini temsil eden boyutlara sahip bir uzaklık olarak tanımlanabilir. Dolayısıyla, benzerlikler birbirine daha çok benzeyen nesne çiftleri için daha yüksektir.


15. Soru

Farklılık ve uzaklık arasındaki ayrım nedir?

Cevap

Çoğunlukla, uzaklık kavramı farklılık kavramının yerine kullanılmasına rağmen aslında uzaklık, farklılıkların özel bir sınıfını ifade etmek için kullanılır. Farklılık, çeşitli özelliklere dayalı olarak iki nesne arasındaki zıtlık ya da uyumsuzlukların bir ölçümü olarak nitelendiğinde, uzaklık iki nesne arasındaki düzensizliğin veya bozukluğun bir ölçüsü olarak düşünülebilir. Kısaca uzaklık ölçüleri yardımıyla iki nesne arasındaki farklılığın derecesi ölçülmektedir. Dolayısıyla, birbirine benzemeyen nesne çiftleri için farklılıklar fazla ve uzaklık ölçüsünün alacağı değer de o oranda büyük olurken birbirine daha çok benzeyen nesne çiftleri için farklılıklar daha az ve uzaklık ölçüsünün alacağı değer de o oranda küçük olacaktır. Farklılıklar kimi zaman [0,1] aralığına düşecek şekilde tanımlansa da genel olarak [0,?) aralığındadır.


16. Soru

Birim ya da değişkenler arası benzerlik ya da uzaklık değerleri hesaplanırken hangi yaklaşımlardan yararlanılır?

Cevap

Birim ya da değişkenler arası benzerlik ya da uzaklık değerleri hesaplanırken geometrik yaklaşımlardan yararlanılır.


17. Soru

Mahalanobis uzaklığı hangi durumda Öklid uzaklığına eşdeğer olur?

Cevap

Mahalanobis uzaklığının hesaplanabilmesi için öncelikle S örneklem kovaryans matrisinin tersi olan S–1 matrisinin elde edilmesi gerekir. Kimi durumlarda S–1 matrisini elde etmede sorun yaşanabilir. Şayet değişkenler arasında bir ilişki söz konusu değilse örneklem kovaryans matrisi S, birim matris yapısına sahip olur ki bu durumda Mahalanobis uzaklığı Öklid uzaklığına eşdeğer olur. Mahalanobis uzaklığı veri madenciliğinde özellikle kümeleme analizi ile sınıflama çalışmalarında sıklıkla kullanılmaktadır. Ek olarak ilgilenilen veri kümesi içerisinde aykırı değerlerin varlığını araştırmak için de Mahalanobis uzaklığından faydalanılır.


18. Soru

R ile Öklid uzaklığı hesaplayabilmek için R’nin temel paketlerinden stats paketinden yararlanılabilir. Bu amaçla ilgili pakette hangi fonksiyon kullanılmalıdır?

Cevap

R ile Öklid uzaklığı hesaplayabilmek için R’nin temel paketlerinden stats paketinde yer alan dist() fonksiyonundan yararlanılır. Her ne kadar R yazılımı çalıştırıldığında ilgili pa­ket otomatik olarak yükleniyor olsa da R’nin komut satırından library (stats) komutunun verilmesi ile paketin kullanıma hazır hale getirilmesi gerekebilir.

dist() fonksiyonu yardımıyla veri matrisi olarak girilen x değişkenine ait nesneler ara­sındaki belirli uzaklık ölçüm değerleri hesaplanabilir. dist() fonksiyonunun temel para­metreleri, veri matrisini ifade eden x ve hesaplanmak istenen uzaklık ölçüsü yöntemi­nin seçimini sağlayan method parametreleridir. Bu fonksiyon ile ilgili yardım için, help (“dist”) komutundan yararlanılabilir.


19. Soru

Açısal Benzerlik (Cosine Similarity) nedir?

Cevap

Açısal benzerlik, iki vektör arasındaki açı farkının kosinüsünün bu iki vektör arasındaki uzaklık olarak alınması suretiyle değişkenler arasındaki benzerliğin belirlenmesine yönelik bir benzerlik ölçüsüdür. İki vektör arasındaki açı farkı sıfır olduğunda yani vektörler birbirlerine paralel olduklarında kosinüs değeri 1 olurken bu iki vektör arasındaki açı farkı 90° olduğunda yani vektörler birbirlerine dik olduklarında kosinüs değeri 0 olur. Dolayısıyla elde edilen değerin 1 olması değişkenler arasında tam bir benzerliğin olduğunun, 0 olması ise değişkenlerin hiç benzerliğin olmadığının göstergesi olmaktadır.

Açısal benzerlik, özellikle belge ve çoklu ortam nesnelerinin kıyaslanmasında ve metin madenciliğinde kullanılmaktadır.


20. Soru

Dönüşümler hangi amaçla kullanılmaktadır?

Cevap

Dönüşümler genellikle benzerlik ve uzaklıklara ilişkin ölçüm değerlerinin birbirlerine dönüştürülmesinde veya her ikisi için farklı aralıklarda elde edilmiş ölçüm değerlerinin [0,1] gibi belirli bir aralık içerisinde ölçeklendirilmesi amacıyla kullanılırlar.


21. Soru

R ile Binary Öklid uzaklığı değerini hesaplayabilmek için vegan paketinden yararlanılabilir. Bu amaçla ilgili pakette hangi fonksiyon kullanılmalıdır?

Cevap

R ile Binary Öklid uzaklığı değerini hesaplayabilmek için vegan paketinde yer alan vegdist() fonksiyonundan yararlanılır. Dolayısıyla işlemleri yapabilmek için önce library(vegan) komutu ile paketin R’de kullanıma hazır hâle getirilmesi gerekir.

vegan paketi içerisinde yer alan vegdist() fonksiyonu yardımıyla Binary Öklid uzaklığının değeri hesaplanır. vegdist() fonksiyonunun temel parametreleri, veri matrisini ifade eden x, hesaplanmak istenen uzaklık ölçüsü yöntemi seçimi için method ve veri tipini belirleyen binary parametreleridir. Bu fonksiyon ile ilgili yardım için, help(“vegdist”) komutundan yararlanılabilir.


22. Soru

Manhattan (City-Block) uzaklık ölçüsü hangi durumlarda kullanılmamalıdır?

Cevap

Diğer uzaklıklara nazaran hesaplanması kolay olan Manhattan (City-Block) uzaklığı, değişkenler arasında yüksek derecede ilişki olması durumunda veya değişkenlerin ölçü birimleri farklı olduğunda kullanılmamalıdır.


23. Soru

Bir dizi niteliğe sahip nesnelerin yakınlığı nasıl tanımlanır?

Cevap

Bir dizi niteliğe sahip nesnelerin yakınlığı, nesnelerin her bir niteliği için elde edilecek yakınlıklarının birleşimi olarak tanımlanır.


24. Soru

Yakınlık ölçülerinin sınıflandırılması hangi bağlamda yapılmaktadır?

Cevap

Yakınlık ölçüleri, temel olarak ilgilenilen değişkenlerin nicel (sayısal) veya nitel (kategorik) olmasına göre farklılık gösterir. Değişkenlerin bu şekilde sınıflandırılmasının nedeni ise, değişkenlere ilişkin ölçüm değerlerinin matematiksel özelliklerine göre sınıflayıcı, sıralayıcı, aralıklı ve oransal olmak üzere dört ölçek ile ölçülmesidir. 


25. Soru

R ile Manhattan uzaklığı hesaplayabilmek için R’nin temel paketlerinden stats paketinden yararlanılabilir. Bu amaçla ilgili pakette hangi fonksiyon kullanılmalıdır?

Cevap

R ile Manhattan uzaklığı hesaplayabilmek için R’nin temel paketlerinden stats paketinde yer alan dist() fonksiyonundan yararlanılır.


26. Soru

Pearson korelasyon katsayısı, bir benzerlik ölçüsü müdür?

Cevap

Pearson korelasyon katsayısı, değişkenlerin gözlem değerlerinin kendi ortalamalarından farkları alınmak suretiyle standartlaştırıldığı açısal benzerlik ölçüsüdür.


27. Soru

R ile Basit Eşleştirme Katsayısı değerini hesaplayabilmek için scrime paketinden yararlanılabilir. Bu amaçla ilgili pakette hangi fonksiyon kullanılmalıdır?

Cevap

R ile Basit Eşleştirme Katsayısı değerini hesaplayabilmek için scrime paketinde yer alan smc() fonksiyonundan yararlanılır. Dolayısıyla hesaplamaları gerçekleştirebilmek için öncelikle library(scrime) komutu ile paketin R’de kullanıma hazır hale getirilmesi gerekir.

scrime paketi içerisinde yer alan smc() fonksiyonu yardımıyla iki sonuçlu değerler alan değişkenler arasındaki basit eşleştirme katsayısının değeri hesaplanır. smc() fonksiyonunun temel parametreleri, satırlarında nesnelerin ikili sonuçlarının girildiği veri matrisi x ve benzerlik veya uzaklık değerinden hangisinin hesaplanacağı seçimi için dist parametreleridir. Bu fonksiyon ile ilgili yardım için, help(“smc”) komutundan yararlanılabilir.


28. Soru

R ile Jaccard uzaklığı değerini hesaplayabilmek için vegan paketinden yararlanılabilir. Bu amaçla ilgili pakette hangi fonksiyon kullanılmalıdır?

Cevap

R ile Jaccard uzaklığı değerini hesaplayabilmek için vegan paketi içerisinde yer alan vegdist() fonksiyonundan yararlanılır. Bu amaçla vegdist fonksiyonu içerisinde method parametresine method = “jaccard” girişi yapılır.


29. Soru

Pearson korelasyon katsayısının aldığı değerler ne anlam ifade etmektedir?

Cevap

Korelasyon katsayısı [-1,+1] arasında değerler alır. -1 ve +1 değerleri incelenen iki değişken arasında tam/mükemmel bir ilişkiyi ifade ederken, 0 (sıfır) değeri ilgili değişkenler arasında hiç ilişkinin olmadığını ifade eder. Hesaplanacak katsayı değerinin eksi işaretli olması değişkenler arasında ters yönlü bir ilişki olduğunun, artı işaretli olması ise değişkenler arasında aynı yönlü bir ilişki olduğunun göstergesidir.


30. Soru

İki sonuçlu (binary) değişkenler için kullanılan yakınlık ölçülerinde neden kontenjans tablosu oluşturulmaktadır?

Cevap

Bu ölçüler temel olarak eşleştirmeye dayanan ölçüler olduklarından, hesaplama yapmadan önce kontenjans ya da diğer adıyla çapraz sınıflama tablosunun oluşturulması gerekir. İki yönlü sınıflama tablosu olarak da adlandırılan kontenjans tablosu, iki sonuçlu değişkenler içeren nesne çiftinin karşılıklı eşleşen değerlerinin tekrar sayılarından oluşan tablodur. Kontenjans tablosunda herhangi bir değişkenin varlığı “1” ya da “+” ile, yokluğu ise “0” ya da “–” ile gösterilir. Buna göre iki sonuçlu nesne çifti için düzenlenen kontenjans tablosu (S: 93, Tablo 4.5)’de verilmiştir. Burada,

a değeri: i ve j nesnelerinin her ikisinde de ilgilenilen değişkenin olmadığı yani yok olduğu durum (0-0 eşleşmesi) sayısını,

b değeri: ilgilenilen değişkenin i nesnesinde var olduğu ve j nesnesinde olmadığı durum (1-0 eşleşmesi) sayısını,

c değeri: ilgilenilen değişkenin i nesnesinde olmadığı ve j nesnesinde var olduğu durum (0-1 eşleşmesi) sayısını,

d değeri: i ve j nesnelerinin her ikisinde de ilgilenilen değişkenin var olduğu durum (1-1 eşleşmesi) sayısını,

p değeri: değişken sayısını göstermektedir.


Bahar Dönemi Dönem Sonu Sınavı
25 Mayıs 2024 Cumartesi