Geri Dön

Kayıp veri içeren veri setlerinde kümeleme uygulamaları

Clustering applications in data sets with missing data

  1. Tez No: 619701
  2. Yazar: SERPİL SEVİMLİ DENİZ
  3. Danışmanlar: PROF. DR. HALİT ERAY ÇELİK
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Van Yüzüncü Yıl Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 100

Özet

Kayıp veriler yapılan çalışmalarda olası bir durumdur. Kümeleme analizi nesnelerin doğal gruplarını bulmak için kullanılan bir yöntemdir. Birçok alanda kümeleme analizi veri çözümlemesinde en çok kullanılan yaklaşımlardan biridir. Çözümlenen veri setlerinde çeşitli oranlarda kayıp veri olabilir. Sayısal verilerde tamamen rastgele olan kayıp veri içeren veri setlerinin analizi için kullanılabilecek kümeleme yöntemleri içinde hangisinin en iyi olduğu ile ilgili kesin bir bilgi bulunmamaktadır. Veri sayısına ve veri yapısına göre her bir yöntemin birbirine üstünlükleri ve eksiklikleri vardır. Bu çalışmada sürekli tam ve kayıp veri içeren verilerin kümelenmesi incelenmiştir. Bölmeli kümeleme tekniklerinden k-ortalamalar ve yapay sinir ağı tabanlı kümeleme tekniklerinden öz düzenleyici haritalar (SOM) ve doğrusal vektör parçalama (LVQ) yöntemleri kullanılarak kümeleme analizleri yapılmış ve elde edilen sonuçlar karşılaştırılmıştır. Nitelikli bir karşılaştırma yapmak için literatürde bu tür karşılaştırmaların yapılmasında yaygın olarak kullanılan on bir gerçek veri setlinden yararlanılmıştır. Analiz sonuçlarına göre tüm yöntemlerde kayıp veri oranı arttıkça doğru sınıflandırma oranlarının düştüğü ve yedi veri setinde SOM kümeleme yönteminin k-ortalamalar ve LVQ yöntemlerine göre daha iyi performans gösterdiği görülmektedir. Dört veri setinde ise verilerin yapısına bağlı olarak LVQ'nun daha iyi performans gösterdiği tespit edilmiştir. Bu çalışmada, ifade edilen sınırlılıklar dahilinde kayıp veri ile çalışma alternatifi sunularak en iyi yöntem önerilerinde bulunulmuştur.

Özet (Çeviri)

Missing data is a possible case in studies. Clustering analysis is a method that using to find natural groups of objects. Cluster analysis in many areas is one of the most used approaches in data analysis. In the analyzed datasets, there may be missing data at various rates. There is no definite information about which is the best in the clustering methods that can be used for the analysis of data sets containing lost data, which is completely random in numerical data. According to the number of data and data structure, each method has its advantages and deficiencies. In this study, clustering of data with continuous full and lost data is examined. Clustering analyzes were performed using k-ortalama clustering from division clustering techniques, self organization map (SOM) and learning vector quantization (LVQ) methods from artificial neural network-based clustering techniques, and the results obtained were compared. In order to make a qualitative comparison, eleven sets of real data, which are widely used in making such comparisons, were used in the literature. According to the results of the analysis, it is seen that as the loss data rate increases in all methods, the correct classification rates decrease and the SOM clustering method performs better than the k-averages and LVQ methods in seven data sets. In four data sets, it was determined that LVQ performed better depending on the structure of the data. In this study, the best method has been proposed by presenting an alternative to working with missing data within the stated limitations.

Benzer Tezler

  1. Derin öğrenme ile cerrahi video anlama

    Surgical video understanding with deep learning

    ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DUYGU SARIKAYA

  2. Penetration rate optimization with support vector regression method

    Destek vektör regresyonu yöntemi ile ilerleme hızı optimizasyonu

    KORHAN KOR

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik Üniversitesi

    Petrol ve Doğal Gaz Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜRŞAT ALTUN

  3. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  4. Implementation of some medical data in Apriori algorithm

    Apriori algoritmasının bazı tıbbı verilere uygulanması

    FAWAD SADIQMAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NILÜFER YURTAY

  5. CNN-based text-independent automatic speaker identification

    Evrişimsel sinir ağı tabanlı metinden bağımsız otomatik konuşmacı tanılama

    MANDANA FASOUNAKI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖKHAN İNCE