Veri Madenciliği Dersi 6. Ünite Sorularla Öğrenelim

Karar Ağaçları

1. Soru

Karar verme nedir?

Cevap

Karar verme, karar vericinin karşılaştığı bir problem çözümünde olumlu bir sonuca ulaşabilmek için, problemin sunduğu birden fazla olası seçenek içerisinden seçim yapması işlemidir.


2. Soru

Karar ağaçları nedir?

Cevap

Karar ağaçları, karar vericinin içinde bulunduğu karar verme probleminde ortaya çıkabilecek tüm durumları ve karar vericinin karşılaşabileceği tüm senaryoları bir arada gösterebilen bir grafiksel yaklaşımdır.


3. Soru

Karar ağaçlarının avantajları nelerdir?

Cevap

Karar ağaçlarının bazı avantajları,

  • Açıklanmalarının kolay olması,
  • İnsani karar almayı diğer yaklaşımlara göre daha iyi yansıtması,
  • Grafiksel olarak gösterilebilir olması,
  • Uzman olmayan kişiler tarafından da kolaylıkla yorumlanabilir olması,
  • Temsili değişkenlere ihtiyaç duymadan nitel değişkenleri de işleyebiliyor olmalarıdır.

4. Soru

Sınıflandırma nedir?

Cevap

Sınıflandırma, bir kaydı, önceden tanımlanmış çeşitli sınıflardan birine atayan bir modelin uygulanması işlemi olarak tanımlanabilir.


5. Soru

Kestirim nedir?

Cevap

Kestirim, bir rassal değişkenin seçtiğimiz modele göre parametrelerinin yerine konulması ile elde edilen değerdir.


6. Soru

Kök düğüm, yaprak düğüm ve iç düğüm kavramları nedir?

Cevap

Karar ağacının başlangıcını oluşturan ilk düğüm kök düğüm olarak adlandırılır. Karar ağacı bu düğümden başlayarak, problemin içerisindeki tüm karar seçeneklerini içerecek şekilde düğümlerin mantık sırasına göre eklenmesiyle tamamlanır. Son düğüm yaprak düğüm, diğer düğümler ise iç düğüm olarak adlandırılır.


7. Soru

Sınıflandırma probleminin çözümlenmesinde karar ağaçları kullanılırken hangi adımlar izlenir?

Cevap

Karar ağaçlarını, sınıflandırma probleminin çözümlenmesinde kullanırken iki adıma ihtiyaç duyulur. Bu adımlar,

  • Karar ağacının oluşturulması
  • Veritabanında yer alan her bir kaydın (ti) sınıflandırmasının yapılması

şeklindedir.


8. Soru

Ayırma kriteri nedir?

Cevap

Karar ağacı oluşturulduktan sonra, her bir kayıt bu karar ağacının kök düğümden başlayarak, geçtiği her düğümdeki sorunun yönlendirmesine göre bir yaprak düğüme ulaşır ve böylece sınıflandırma işlemi tamamlanmış olur. Bu süreçte karşılaşılabilecek en önemli sorun, kök ve iç düğümlerde hangi niteliklerin yer alacağının tespit edilmesidir. Çünkü, sınırlı sayıda kayıttan oluşan bir  veri yığını için olası tüm karar ağaçlarını oluşturmak ve bunların arasından en uygunu seçmek oldukça zor olacaktır. Bu nitelik, ayırma işlemini gerçekleştiren en iyi nitelik olacaktır ve ayırma kriteri olarak adlandırılır.


9. Soru

Ayırma kriterinin belirlenmesi için geliştirilen ölçüler nelerdir?

Cevap

Ayırma kriterinin belirlenmesi için çeşitli ölçüler geliştirilmiştir. Bu ölçüler, niteliğin veri tipine göre değişiklik göstermektedir. Nitel veri için Entropi İndeksi, Gini İndeksi, Sınıflandırma Hatası İndeksi ve Twoing ölçüleri kullanılır. Ek olarak Twoing ölçüsünün sıralı ölçekle ölçülmüş değişkenlerin bulunduğu veri için Ordered Twoing bulunmaktadır. Nicel veriler için ise En Küçük Kareler Sapması yöntemi en sık kullanılan ölçüdür


10. Soru

Entropi nedir?

Cevap

Entropi, bir veri yığınındaki düzensizliğin, rassallığın miktarını ölçmek için kullanılan bir ölçüdür.  Entropisi 0 olan bir grubun tam homojen bir grup, entropisi 1 olan grubun ise tam heterojen olduğu söylenebilir.


11. Soru

Gini indeksi nedir?

Cevap

Gini indeksi, ikili bölünmeye dayanan bir tekniktir. Bu indeksin hesaplanmasında nitelik değerlerinin sola ve sağa olmak üzere iki bölüme ayrılması işlemi yürütülür.


12. Soru

Gini indeksi hesaplanması için izlenecek adımlar nelerdir?

Cevap

Gini indeksi hesaplanması için izlenecek adımlar izleyen biçimde sıralanabilir;

  • 1. Adım: Her nitelik değeri, sol ve sağ olmak üzere ikiye ayrılır, her bölüme karşılık gelen sınıf değerleri gruplandırılır.
  • 2. Adım: Her bir niteliğin sol ve sağ tarafta yer alan bölünmeleri için Ginisol ve Ginisağ değerleri hesaplanır.
  • 3. Adım: Her bir j niteliği için, n düğümdeki örnek sayısı iken, Gini indeksinin ağırlıklı ortalaması hesaplanır.
  • 4. Adım: Her bir j niteliği için hesaplanan Ginij değerleri arasında en küçük olan seçilir, bölünme işlemi bu nitelik üzerinden gerçekleştirilir.
  • 5. Adım: Bu adıma kadar yapılan tüm işlemler, karar ağacına yeni bir düğüm eklenemeyene kadar tekrarlanır.

13. Soru

Karar ağacı oluşturma algoritmaları nelerdir?

Cevap

Sınıflandırma problemlerinde bir karar ağacının oluşturulması için farklı algoritmalardan yararlanılabilir. Bu algoritmalara örnek olarak ID3, C4.5, CART, CHAID, QUEST, SLIQ, SPRINT ve MARS verilebilir. Bu algoritmalar, veri yığınını işleme şekline ve kullanılan ayırma kriterine göre değişiklik göstermektedir.


14. Soru

ID3 algoritmasının özellikleri nelerdir?

Cevap

ID3 algoritması en basit karar ağacı oluşturma algoritmasıdır. Ayırma kriteri olarak kazanç ölçütünden yararlanılmaktadır. Karar ağacının büyümesini durdurma kriteri ise tüm kayıtların tek bir sınıfa ait olması veya kazanç ölçütünün sıfırdan büyük olmaması durumudur. ID3 algoritmasında, karar ağacına herhangi bir budama işlemi uygulanmaz, ek olarak bu algoritma sayısal (ölçüm düzeyi nicel) nitelikleri ve kayıp veriyi işleyememektedir. 1983 yılında Ross Quinlan tarafından önerilmiştir.


15. Soru

Budama işleminin amacı nedir?

Cevap

Budama bir ya da daha fazla dalı çıkartarak, karar ağacını daha basitleştirmek amacıyla, yaprak düğüm ile değiştirme işlemidir. Bu işlem, çıkartılmasına karar verilen dalın içerdiği kayıtların, bağlı olduğu üst düğüme dahil edilerek, düğümün yaprak düğüme dönüştürülmesine dayanır. Böylece, kestirim hata oranının, ortaya çıkan aşırı uyum (overfitting) sorununun giderilmesi, azaltılması ve sınıflandırma modelinin kalitesinin arttırılması hedeflenir.


16. Soru

Budama süreci için geliştirilen yöntemler nelerdir?

Cevap

Budama süreci için çeşitli yöntemler geliştirilmiştir. Bu yöntemlerden bazıları maliyet karmaşıklığı (cost complexity), kötümser hata (pessimistic error), hata-karmaşıklığı (error complexity), kritik değer (critical value), azaltılmış hata (reduced error), en küçükhata (minimum-error) budama yöntemleridir.


17. Soru

Karar ağacı oluşturulurken, veritabanının bir kısmının modeli oluşturmak için kullanılırken, kalan kısmının oluşturulan modelin test edilebilmesi için ayrılmasının amacı nedir?

Cevap

Çoğu teknikte olduğu gibi karar ağacı oluşturulurken de, veritabanının bir kısmı modeli oluşturmak için kullanılırken, kalan kısım ise oluşturulan modelin test edilebilmesi için ayrılır. Veriyi ikiye ayırmanın amacı, kullanılan karar ağacı algoritmasının ortaya çıkardığı sınıflandırmanın test için saklanan veri ile tekrar denenerek, elde edilen sonuçlar arasında anlamlı bir farklılık olup olmadığının tespit edilmesidir. Bu tespit, elde edilen modelin performansını ölçen bir tespittir.


18. Soru

Sınıflandırma ve regresyon ağaçlarının (CART) temel özellikleri nelerdir?

Cevap

Sınıflandırma ve regresyon ağaçları (CART), veri madenciliği sürecinde karşılaşılan sınıflandırma problemlerinde oldukça sık kullanılan bir yöntemdir. İkili (binary) karar ağaçları oluşturulduğu için diğer algoritmalardan ayrılmaktadır. Karar ağacındaki her bir düğüm sadece iki dala ayırır. Ayırma kriteri için Entropi, Gini ve Twoing indekslerinden, karar ağacını budamak için ise maliyet-karmaşıklığı kriterinden yararlanmaktadır. CART algoritmasının önemli bir işlevi ise, yaprak düğümlerinde bir sınıf kestirimi yerine sayısal bir değer kestirimini içeren regresyon ağacı da oluşturabilmesidir.


19. Soru

R’ye veri aktarma yöntemleri nelerdir?

Cevap

R’ye veri aktarmanın birçok yöntemi mevcuttur. Bu yöntemlerden bazıları csv (comma seperated values) türü dosya ile veri aktarımı, kopyala-yapıştır yöntemi ve veritabanı bağlantısı ile veri aktarım yöntemidir.


20. Soru

rpart paketi içerisinde yer alan rpart() fonksiyonunda kullanılan parametreler nelerdir?

Cevap

rpart paketi içerisinde yer alan rpart() fonksiyonunda kullanılan parametreler sırasıyla, hedef niteliği de içeren herhangi bir etkileşimin söz konusu olmadığı ilişki formülünü ifade eden formula, formüldeki değişkenlerin çevrilebilmesi için gerekli olan veri yığınını içeren değişkeni ifade eden data ve karar ağacının oluşturulma amacını ifade eden method parametreleridir.


Güz Dönemi Ara Sınavı
7 Aralık 2024 Cumartesi
v