Veri Madenciliği Dersi 1. Ünite Sorularla Öğrenelim

Temel Kavramlar

1. Soru

Veri madenciliğinin amacı nedir?

Cevap

Veri madenciliğinin amacı, çok büyük miktarda ve karmaşık durumdaki veriler içinden geleneksel yöntemlerle elde edilemeyecek bilgilere ulaşma ve bu bilgileri rakiplere fark yaratacak kararlarda kullanabilmeye olanak sağlamaktır.


2. Soru

Perseptron nedir? Açıklayınız.

Cevap

Perseptron, insan beyninde yer alan sinir hücrelerinin (nöronların) ilk yapay modeline verilen isim olup algılayıcı, fark edici anlamındadır. 1957 yılında Frank Rosenblatt tarafından geliştirilen ve tekrar eden, benzerlik gösteren özelliklerin bilgisayar tarafından algılanabilmesini sağlayan bir algoritmadır.


3. Soru

Veri madenciliğinin tarihsel sürecini kısaca açıklayınız.

Cevap

Bugün veri madenciliği olarak ifade ettiğimiz kavrama ilişkin çalışmalar aslında ilk olarak, 1960’lı yıllarda bilgisayar sistemlerinin, verilerin analizi ve problemlerin çözümü amacıyla kullanılmaya başlanmasıyla birlikte ortaya çıkmıştır. Buna göre bilgisayarlarda depolanan veriler üzerinde, yeterli uzunlukta bir tarama yapıldığında, istenilen verilere erişmenin olanaklı olacağı gerçeği kabul edilmiştir. Bu işleme ilk zamanlarda veri taraması, veri yakalaması gibi adlandırmalar yapılmıştır. Veri madenciliği adlandırması ise yukarıda da belirtildiği gibi 1990’lı yıllara gelindiğinde, bilgisayar mühendisleri tarafından kullanılmaya başlanmıştır.


4. Soru

İstatistiğin veri madenciliğine etkisi nedir?

Cevap

İstatistik, verilerin analizi ve değerlendirilmesi konusunda geçmişten günümüze yoğun bir biçimde kullanılan bir disiplindir. Bilgisayar sistemlerinde hem donanım hem de yazılım alanında sağlanan gelişmeler doğal olarak istatistik alanını da etkilemiştir.

İstatistiksel çalışmaların bilgisayar desteğiyle daha güçlü biçimde yapılması, daha önce gerçekleştirilmesi çok mümkün olmayan istatistiksel araştırmaları ve analizleri yapılabilir hâle getirmiştir. Bu anlamda 1990’lardan sonra, ilgilenilen verinin yığınlar içinden çekilip çıkarılması ve analizinin yapılarak kullanıma hazır hâle getirilmesi sürecinde istatistik, veri madenciliği ile ortak bir platformda ve sıkı bir çalışma birlikteliği içinde olmuştur.


5. Soru

Makine öğreniminin veri madenciliğine etkisi nedir?

Cevap

Veri madenciliği çalışmalarında etkili olan ve yapay zekâ çalışmalarının da temelini oluşturan makine öğrenimi, kısaca bilgisayarların bazı işlemlerden çıkarsamalar yaparak yeni işlemler üretmesi olarak tanımlanabilir.

Makine öğrenimi, insan öğrenmesinde söz konusu olan özelliklerin algoritmalar yardımıyla bilgisayarlara da uygulanabileceği ve bilgisayarların da insanlar gibi öğrenebileceği düşüncesini temel alan bir disiplindir. İnsanlar çocukluk dönemlerinden itibaren öğrenmeye başlarlar. Bu, etraflarında gördükleri tüm nesneleri gözlemleme ve bu gözlemler aynı türde nesneler üzerinde tekrarlandıkça nesneleri kavramlara dönüştürme biçiminde gerçekleşir. Aynı türde nesnelere ilişkin farklı örnekleri görmeyi, incelemeyi sürdürdükçe nesneye ilişkin kavram netleşir ve benzer örnekleri ilgili nesne sınıfına konumlandırarak bir sınıflama modeli oluşturur. Makine öğrenimi de bilgisayarların kendisine algoritmalar yoluyla verilen kuralları uygulaması ve büyük veri kümeleri içinden örnekler çıkararak verileri bu kurallara göre sınıflamaları, tanımlamaları ve dolayısıyla öğrenmeleri olarak ifade edilebilir. Bu öğrenmeler sonucunda çıkarımlarda bulunarak geçmiş veri örnekleri yardımıyla gelecekte daha iyi sonuçlar üretme konusunda veri madenciliği uygulamasına katkıda bulunurlar. 


6. Soru

Görselleştirmenin veri madenciliğine etkisi nedir?

Cevap

Veri madenciliğinde söz konusu diğer bir disiplin olan görselleştirme; verilerin, tablolar ve grafikler gibi görseller yardımıyla sunulmasını sağlayan teknolojileri ifade eder.

Görselleştirme; verilerin daha kolay anlaşılmasına, analiz edilmesine ve geleceğe yönelik tahminlerde bulunulmasına önemli katkı sağlamaktadır. Veri madenciliğinde kullanılan görselleştirme teknikleri ilk zamanlarda sadece iki boyutlu serpilme ve serpilme matris çizimleri ya da üç boyutlu grafikler biçimindeydi. Ancak zaman içinde, verilerin öznitelik sayılarındaki artış klasik istatistiğin sunduğu iki veya üç boyutlu grafiklerin yetersiz kalması sonucunu da birlikte getirmiştir. Bu durum da çok daha fazla boyutun görselleştirilmesine imkân sağlayan yeni grafik araçlarının geliştirilmesine neden olmuştur. YerKonum veri analizi, sinyal işleme, görüntü analizi gibi teknikler görselleştirme amacıyla kullanılan tekniklere verilebilecek örneklerdir. 


7. Soru

Örüntü tanıma kavramı nedir?

Cevap

Örüntü tanıma: Olaylar ve nesneler arasında daha önceden tanımlanmış, düzenli ve sistematik biçimde tekrar eden ilişkileri bir model olarak kabul eden ve bu modelin (örüntünün) benzerlerini ya da en benzerini veritabanı içinden arama ve bulmaya yönelik teknolojidir.


8. Soru

Veri ambarı nedir?

Cevap

Veri ambarı işletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği işlemlerinin gerçekleştirileceği veriyi sağlayan daha geniş ve özel veritabanlarına verilen isimdir.


9. Soru

Çevrimiçi analitik işleme kavramını nedir?

Cevap

OLAP (Online Analytical Processing - Çevrimiçi Analitik İşleme) veri ambarında yer alan veriler üzerinde çok boyutlu, çok yönlü analiz ve sorgulama yapılmasını sağlayan sistemlerdir.


10. Soru

En genel veri madenciliği tanımı nedir?

Cevap

Veri madenciliği, veriden örüntülerin çıkarılması amacıyla çeşitli algoritmaların uygulanmasıdır. Elde edilen örüntü ve kurallar karar vermeye ve bu kararların sonuçlarını tahmin etmeye destek olacak biçimde kullanılabilecektir.


11. Soru

Veritabanlarında bilgi keşfi sürecinde izlenmesi gereken temel adımlar nelerdir?

Cevap

Veritabanlarında Bilgi Keşfi sürecinde, işlemsel veritabanlarında depolanmış olan verinin sorgulama ve analiz için uygun hâle getirilmesi işlemleri yürütülür. Veritabanlarında Bilgi Keşfi sürecinde izlenmesi gereken temel aşamalar aşağıdaki gibi sıralanabilir.
1. Amacın Tanımlanması
2. Veriler Üzerinde Ön İşlemlerin Yapılması
3. Modelin Kurulması ve Değerlendirilmesi
4. Modelin Kullanılması ve Yorumlanması
5. Modelin İzlenmesi


12. Soru

Veri madenciliği sürecinde hangi işlemler uygulanır?

Cevap

Veri madenciliği sürecinde;
• Veri madenciliği öncesindeki işlemler,
• Veri madenciliği işlemleri,
• Veri madenciliği sonrasındaki işlemler
biçiminde bir uygulamanın söz konusu olduğu görülebilir.


13. Soru

Veritabanlarında bilgi keşfi sürecindeki adımlardan amacın tanımlanmasını kısaca açıklayınız.

Cevap

Bu aşamada, işletmenin ya da kurumun veri madenciliğini hangi amaca yönelik olarak gerçekleştirmek istediği belirlenir. Söz konusu amaç bir problemi ortadan kaldırmaya odaklanmış ve açık bir biçimde ifade edilmiş olmalıdır. Buna ek olarak, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği de tanımlanmalıdır. Bu aşamada ayrıca, süreç sonunda yapılacak değerlendirme ve öngörülerin yanlış olması durumunda katlanılacak maliyetlere ve doğru olması durumunda elde edilecek kazanımlara ilişkin tahminlere de yer verilmelidir.


14. Soru

Veritabanlarında bilgi keşfi sürecindeki adımlardan veri üzerinde uygulanan ön işlemler nelerdir?

Cevap

Veriler üzerindeki ön işlemler genel olarak;
• Verilerin toplanması ve birleştirilmesi,
• Verilerin temizlenmesi,
• Verilerin yeniden yapılandırılması biçiminde sınıflandırılabilir.


15. Soru

Veritabanlarında bilgi keşfi sürecindeki adımlardan verilerin temizlenmesi aşamasını kısaca açıklayınız.

Cevap

Verilerin temizlenmesi, kayıp ya da eksik değerleri tamamlamak, aykırı değerleri belirleyerek gürültüyü ortadan kaldırmak ve verilerdeki tutarsızlıkları, uyumsuzlukları gidermek için kullanılan birçok yaklaşımı ve tekniği kapsar.


16. Soru

Kayıp veri nedir?

Cevap

Kayıp veri, veritabanlarındaki kayıtlarda eksik olan verilerdir. Kayıp veriler çeşitli nedenlerden kaynaklanabilir; veri toplamada yanlış araçların kullanılması, veri girişinde hata yapılması ya da veri toplama aşamasında sorulara eksik cevap verilmesi bu nedenlerden bazılarıdır.


17. Soru

Gürültülü veri nedir?

Cevap

Veritabanlarında doğru olmayacak kadar uç değerler, aykırı değer ya da sıra dışı değer olarak tanımlanır. Bu şekildeki aykırı değerler ya da farklı sebeplerle yanlış girilmiş değerler genel olarak gürültülü veri olarak tanımlanır.


18. Soru

Denetimli öğrenme süreci nedir? Açıklayınız.

Cevap

Denetimli öğrenmede ilgili veriler seçilen algoritmaya uygun olarak hazırlandıktan sonra, ilk aşamada verinin bir kısmı modelin öğrenimi, diğer kısmı ise modelin geçerliliğinin test edilmesi için ayrılır. Modelin öğrenimi, öğrenim kümesi kullanılarak gerçekleştirildikten sonra, test kümesi ile modelin doğruluk derecesi belirlenir.


19. Soru

Denetimsiz öğrenmede amaç nedir?

Cevap

Denetimsiz öğrenmede, kümeleme analizinde olduğu gibi ilgili örneklerin gözlenmesi ve bu örneklerin özellikleri arasındaki benzerliklerden hareket ederek sınıfların tanımlanması amaçlanmaktadır.


20. Soru

Geleneksel istatistiksel analiz ile veri madenciliği arasındaki temel farklar nelerdir?

Cevap

Geleneksel istatistiksel analiz ile veri madenciliği arasındaki temel farklar aşağıdaki gibi sıralanabilir:

• İstatistiksel analizde, analize genellikle bir hipotez kurularak başlanırken veri madenciliği ile analizde herhangi bir hipoteze gerek duyulmaz.

• İstatistikçiler hipotezlerini eşleştirmek için kendi eşitliklerini geliştirmek zorunda oldukları hâlde, veri madenciliği algoritmaları eşitlikleri otomatik olarak geliştirir.

• İstatistiksel analizler genellikle sayısal veriler üzerinde gerçekleştirilirken veri madenciliği sayısal verilere ek olarak metin, ses vb. gibi farklı veri türleri üzerinde de işlem yapabilir.

• İstatistiksel analizde, kirli veri analiz sırasında bulunur ve filtre edilirken veri madenciliği temizlenmiş veri üzerinde gerçekleştirilir.

• İstatistiksel analizde bulunan sonuçlar kolaylıkla yorumlanabilirken veri madenciliğinin sonuçlarını değerlendirmek ve yorumlamak aynı derecede kolay olmayıp uzman istatistikçilere gereksinim duyulur.


21. Soru

Veri madenciliğinin uygulandığı alanlar nelerdir?

Cevap

Veri madenciliği uygulamaları pazarlama, finans, sağlık, eğitim, endüstri ve mühendislik alanlarında kullanılır.


Güz Dönemi Ara Sınavı
7 Aralık 2024 Cumartesi
v