Veri analizi kümeleme ve sınıflandırma yöntemlerinde matematiksel modellemeler ve iyileştirme önerileri
Mathematical modelling and improvement suggestions in clustering and classification methods for data analysis
- Tez No: 744923
- Danışmanlar: DOÇ. DR. FİLİZ KANBAY
- Tez Türü: Yüksek Lisans
- Konular: Matematik, Mathematics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Ana Bilim Dalı
- Bilim Dalı: Matematik Bilim Dalı
- Sayfa Sayısı: 63
Özet
Bu tez çalışmasının birinci bölümü tezin amacı ve ilgili literatür özetini içermektedir. İkinci bölümü veri madenciliğinin tanımı, kullanım alanları ve veri madenciliği süreçleri ile ilgili temel kavramlara ayrılmıştır. Üçüncü bölümde ise çeşitli kümeleme ve sınıflandırma algoritmalarının matematiksel temelleri açıklanarak model değerlendirme ölçütlerinden bahsedilmiştir. Tezin dördüncü bölümünde 403 adet bilgi içeren bir veri seti ele alınarak ilk üç bölümde konu edilen kümeleme ve sınıflandırma algoritmaları yani en yakın komşu algoritması, k-ortalama değer algoritması, naive bayes algoritması, karar ağacı algoritması, destek vektör makineleri, boosting (XGboost, AdaBoost) ve rastgele orman algoritması uygulanarak ilgili matematiksel modellemeler oluşturulmuştur. İlgili modellemelerin başarısını arttıracak model parametreleri ızgara taraması ile en uygun hale getirilmiştir. Son olarak sonuçların görselliğini sağlamak amacı ile öznitelikler rastgele orman algoritması ile önem sırasına göre sıralanmış ve öznitelik sayıları bu sıralamaya göre azaltılarak veri görselleştirilmesi sağlanmıştır.
Özet (Çeviri)
The first chapter of this thesis contains a summary of the relevant literature as well as the purpose of the thesis. The second chapter defines data mining, its application areas, and the fundamental concepts associated with data mining processes. In the third chapter, the mathematical foundations of various clustering and classification algorithms are explained and model evaluation criteria are mentioned. In the fourth chapter of the thesis, a data set which is containing 403 pieces of information was examined. This data set was used to create related mathematical models using the clustering and classification algorithms discussed in the first three chapters such as k nearest-neighbour, k-mean value, naive bayes, decision tree, support vector machines, boosting (XGboost, AdaBoost), and random forest algorithm. The model parameters that will increase the success of the related modeling have been optimized by grid scanning. Finally, in order to provide visualization of the results, the features were ranked in order of importance using the random forest and the number of features was reduced based on this order and data visualization provided
Benzer Tezler
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Application of statistical methods in the analyses of foster family
Koruyucu aile analizlerinde istatistiksel metodların kullanımı
GİZEM ATAR
Yüksek Lisans
İngilizce
2023
Sosyal HizmetOrta Doğu Teknik Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. VİLDA PURUTÇUOĞLU
- A taxonomy of artificial neural networks
Yapay sinir ağlari'nin bir taksonomisi
ALP EREN YILMAZ
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMatematik Ana Bilim Dalı
PROF. DR. ATABEY KAYGUN
- Pertübasyon yöntemi ile hassas veri güvenliğine yönelik çok değişkenli veriler için tahmin analizi
Prediction analysis for multivariate data with respect to sensitive data security using the perturbation method
İLKER İLTER
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri MühendisliğiSakarya ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SAFİYE SENCER
- RFMLP based customer segmentation and customer churn analysis in heavy equipment industry using customer transactions data
İş makinesi sektöründe müşteri işlem verilerini kullanarak RFMLP tabanlı müşteri segmentasyonu ve müşteri kayıp analizi
MUSTAFA ÇAMLICA
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. FETHİ ÇALIŞIR