Geri Dön

Veri analizi kümeleme ve sınıflandırma yöntemlerinde matematiksel modellemeler ve iyileştirme önerileri

Mathematical modelling and improvement suggestions in clustering and classification methods for data analysis

  1. Tez No: 744923
  2. Yazar: MELİKE GÖKSU
  3. Danışmanlar: DOÇ. DR. FİLİZ KANBAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Matematik, Mathematics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Matematik Ana Bilim Dalı
  12. Bilim Dalı: Matematik Bilim Dalı
  13. Sayfa Sayısı: 63

Özet

Bu tez çalışmasının birinci bölümü tezin amacı ve ilgili literatür özetini içermektedir. İkinci bölümü veri madenciliğinin tanımı, kullanım alanları ve veri madenciliği süreçleri ile ilgili temel kavramlara ayrılmıştır. Üçüncü bölümde ise çeşitli kümeleme ve sınıflandırma algoritmalarının matematiksel temelleri açıklanarak model değerlendirme ölçütlerinden bahsedilmiştir. Tezin dördüncü bölümünde 403 adet bilgi içeren bir veri seti ele alınarak ilk üç bölümde konu edilen kümeleme ve sınıflandırma algoritmaları yani en yakın komşu algoritması, k-ortalama değer algoritması, naive bayes algoritması, karar ağacı algoritması, destek vektör makineleri, boosting (XGboost, AdaBoost) ve rastgele orman algoritması uygulanarak ilgili matematiksel modellemeler oluşturulmuştur. İlgili modellemelerin başarısını arttıracak model parametreleri ızgara taraması ile en uygun hale getirilmiştir. Son olarak sonuçların görselliğini sağlamak amacı ile öznitelikler rastgele orman algoritması ile önem sırasına göre sıralanmış ve öznitelik sayıları bu sıralamaya göre azaltılarak veri görselleştirilmesi sağlanmıştır.

Özet (Çeviri)

The first chapter of this thesis contains a summary of the relevant literature as well as the purpose of the thesis. The second chapter defines data mining, its application areas, and the fundamental concepts associated with data mining processes. In the third chapter, the mathematical foundations of various clustering and classification algorithms are explained and model evaluation criteria are mentioned. In the fourth chapter of the thesis, a data set which is containing 403 pieces of information was examined. This data set was used to create related mathematical models using the clustering and classification algorithms discussed in the first three chapters such as k nearest-neighbour, k-mean value, naive bayes, decision tree, support vector machines, boosting (XGboost, AdaBoost), and random forest algorithm. The model parameters that will increase the success of the related modeling have been optimized by grid scanning. Finally, in order to provide visualization of the results, the features were ranked in order of importance using the random forest and the number of features was reduced based on this order and data visualization provided

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Application of statistical methods in the analyses of foster family

    Koruyucu aile analizlerinde istatistiksel metodların kullanımı

    GİZEM ATAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Sosyal HizmetOrta Doğu Teknik Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. VİLDA PURUTÇUOĞLU

  3. A taxonomy of artificial neural networks

    Yapay sinir ağlari'nin bir taksonomisi

    ALP EREN YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Matematik Ana Bilim Dalı

    PROF. DR. ATABEY KAYGUN

  4. Pertübasyon yöntemi ile hassas veri güvenliğine yönelik çok değişkenli veriler için tahmin analizi

    Prediction analysis for multivariate data with respect to sensitive data security using the perturbation method

    İLKER İLTER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SAFİYE SENCER

  5. RFMLP based customer segmentation and customer churn analysis in heavy equipment industry using customer transactions data

    İş makinesi sektöründe müşteri işlem verilerini kullanarak RFMLP tabanlı müşteri segmentasyonu ve müşteri kayıp analizi

    MUSTAFA ÇAMLICA

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. FETHİ ÇALIŞIR