Veri madenciliği algoritmaları ile aile yapısı araştırması verilerinin sınıflandırılması
Classification of family structure research data by data mining algorithms
- Tez No: 857661
- Danışmanlar: DOÇ. DR. ÖZER ÖZDEMİR
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Eskişehir Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 75
Özet
Madencilik terimi ile benzer anlam taşıyan veri madenciliği, sorunların çözülmesine, eğilimlerin tahmin edilmesine, risklerin azaltılmasına ve yeni fırsatlar bulunmasına yardımcı olmak için muazzam miktarda bilgi ve veri setini analiz etme, yararlı zekayı keşfetme sürecidir. Aynı zamanda veri madenciliği ilişkilerin kurulmasını, sorunlarla başa çıkabilmek için korelasyonlar bulmayı ve süreçte eyleme geçirilebilir bilgiler oluşturmayı da içermektedir. Bu tez çalışmasında veri madenciliğinin muazzam yeteneklerinden faydalanarak Likert ölçekli veri tiplerinde bilgi keşfi yapılması amaçlanmıştır. Farklı veri madenciliği tekniklerinin Likert ölçekli veri türleri üzerinde sınıflandırma başarısını karşılaştırmak üzere veri seti olarak Türkiye İstatistik Kurumu (TUİK) Başkanlığı tarafından yürütülen Türkiye Aile Yapısı Araştırması (TAYA) seçilmiştir. İki aşamada gerçekleştirilen deneylerde ilk olarak öznitelik seçimi yapılmış ve Bilgi Kazancı kriteri ile 10 değerli öznitelik belirlenmiştir. Sınıflandırma aşamasında ilk olarak veri setindeki kategori sayısı değiştirilerek algoritmaların sınıflandırma başarısı ölçümlenmiştir. Ardından yapısı gereği dengesiz olan veri seti üzerinde sınıflar arası dengesizlik giderilmiş ve sınıflama analizine etkisi gözlemlenmiştir. Dengesizlik giderilmeden yapılan sınıflandırmada beşli kategoriye sahip olan veri setinde en başarılı sınıflandırma performansı CART algoritmasında, üçlü kategoriye sahip olan veri setinde RepTree algoritmasında görülmüştür. Sınıflar arası dengesizliği giderebilmek amacıyla yeniden örnekleme ve veri tamamlama yöntemi ile toplam örnek hacmi değiştirilerek üç farklı veri seti oluşturulmuştur. Oluşturulan veri setlerinde sınıflandırma başarısı en yüksek olan algoritmanın CART algoritması olduğu görülmüştür.
Özet (Çeviri)
Similar to the term mining, data mining is the process of discovering useful intelligence, analyzing enormous amounts of information and datasets to help solve problems, predict trends, mitigate risks, and find new opportunities. At the same time, data mining involves building relationships, finding correlations to deal with problems, and generating actionable insights in the process. In this thesis, it is aimed to discover information in Likert scale data types by taking advantage of the enormous capabilities of data mining. To compare the classification success of different data mining techniques on Likert scale data types, Turkey Family Structure Survey (TAYA) conducted by the Turkish Statistical Institute (TURKSTAT) was chosen as the data set. In the experiments carried out in two stages, first feature selection was made, and 10 valuable features were determined with the Information Gain criterion. In the classification phase, firstly, the number of categories in the dataset was changed and the classification success of the algorithms was measured. Then, the imbalance between the classes on the dataset, which is imbalanced due to its structure, was removed and its effect on the classification analysis was observed. The most successful classification performance was observed in the CART algorithm for the dataset with five categories and in the RepTree algorithm for the dataset with three categories. To eliminate the imbalance between classes, three different data sets were created by changing the total sample volume with resampling and data completion method. It was observed that the algorithm with the highest classification success in the created data sets was the CART algorithm.
Benzer Tezler
- Breast cancer data classification using SVM, NB and KNN algorithms
SVM, NB ve KNN kullanımı ile göğüs kanseri veri sınıflandırması
BURCU MERAL
Yüksek Lisans
İngilizce
2019
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
PROF. DR. KAMİL ORUÇOĞLU
- Veri madenciliği ile mühendislik fakültesi öğrencilerinin okul başarılarının analizi
Investigation of student success at faculty of engineering by using data mining
AHMET SAYGILI
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SONGÜL ALBAYRAK
- Uzaktan eğitim öğrencilerin mezuniyet durumlarının veri madenciliği yöntemleri ile tahmini: Amasya Üniversitesi Örneği
Predicting the status of the graduating students in distance learning with the help of data mining methods:Amasya University Sample
OSMAN KAYHAN
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAmasya ÜniversitesiTeknoloji ve İnovasyon Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YAVUZ ÜNAL
- Veri madenciliği algoritmaları ile birliktelik kurallarının belirlenmesi: Perakende sektöründe bir uygulama
Determination of association rules with data mining algorithms: An application in retail sector
AYŞE NUR SAĞIN
Yüksek Lisans
Türkçe
2018
Endüstri ve Endüstri Mühendisliğiİstanbul Ticaret ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BERK AYVAZ
- Veri madenciliği algoritmaları ile kredi kartı kullanım alışkanlıklarının incelenmesi ve kişiye özgü kampanya teklifi
Analyzing credit card usage behaviours with data mining algorithms and pearson specific campaign offer
TUĞÇE SÜHEYLA KAYA
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
PROF. DR. SEVİNÇ GÜLSEÇEN