Geri Dön

Makine öğrenmesine dayalı eksik veri tamamlama yöntemlerinin istatistiksel performanslarının karşılaştırılması üzerine bir araştırma

A research on comparison of statistical performance of missing data imputation methods based on machine learning

  1. Tez No: 862036
  2. Yazar: ŞEMSETTİN ERKEN
  3. Danışmanlar: PROF. DR. RABİA ECE OMAY
  4. Tez Türü: Doktora
  5. Konular: Ekonometri, İstatistik, Econometrics, Statistics
  6. Anahtar Kelimeler: Eksik Veri, Eksik Veri Tamamlama, Makine Öğrenmesi, Sınıflandırma, Veri Analizi, Missing Data, Missing Data Imputation, Machine Learning, Classification, Data Analysis
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Ekonometri Ana Bilim Dalı
  12. Bilim Dalı: Ekonometri Bilim Dalı
  13. Sayfa Sayısı: 111

Özet

Veri kavramı, insanlık tarihi boyunca yaşam için gerekli olan ihtiyaçlar kadar önemli olan bir kavramdır. İnsanlar, topladığı veriler aracılığıyla bilgi elde ederek içinde bulundukları zaman dilimindeki problemlerini çözmek amacı taşımışlardır. Aynı zamanda insanlar, verilerin arasındaki örüntü ve ilişkileri tespit ederek geleceğe yönelik çıkarımlar yapma amacı taşımaktadır. Bu noktada, bilgiye erişim sürecinde veriler, verilerin nitelikleri ve verilerin sahip olduğu özellikler anahtar niteliktedir. Veri topluluklarından direkt olarak bilgi elde etmek çok zordur. Bilginin elde edilmesi için kullanılacak olan verilerin gerekli analize hazır olması gerekmektedir. Veri setlerinde, eksik değerlerin olması sık rastlanan problemlerden bir tanesidir. Bu problemin çözülmesi, yapılacak analizden anlamlı bilgiler ve sonuçlar üretebilmek için oldukça önemlidir. Eksik değerlerin göz ardı edildiği analizlerin sonucunda elde edilen bilgiler, gerçeği yansıtmayan ve sağlıksız bilgiler olacağından, eksik değerler uygun şartlar çerçevesinde tamamlanmalıdır. Eksik değerlerin, veri setinin istatistiksel özelliklerini yansıtan ve bu şartlara uygun bir yöntemle veya yöntemlerle tamamlanması özellikle dikkat edilmesi gereken bir durumdur. Makine öğrenmesi, verilerden eğitim yoluyla elde edilen modeller yoluyla gelecekte karşılaşılabilecek olan durumlara yönelik tahminler üreten bilgisayar teknolojisi ve yapay zekâya dayalı bir disiplindir. Makine öğrenmesi algoritmaları kullanılarak sınıflandırma, regresyon ve kümeleme gibi problemlere çözüm bulunmaktadır. Tez çalışmasında, Hitters veri setindeki veriler, manipüle edilerek %5, %10 ve %15 oranlarında rastgele eksiltilmiştir. Eksiltilen değerler, temel eksik eksik veri tamamlama yöntemleri ve makine öğrenmesi algoritmaları ile tamamlanmıştır. Temel eksik veri tamamlama yöntemi olarak Liste Boyunca Silme, Son Gözlemi İleri Taşıma ve Ortalama İle Tamamlama yöntemleri tercih edilmiştir. Diğer taraftan, makine öğrenmesi algoritmalarından En Yakın k-Komşu algoritması, Rassal Orman algoritması, Stokastik Regresyon ve Amelia algoritması kullanılmıştır. Böylece, Hitters veri setinden, bir anlamda kullanılan yöntem sayısı kadar yeni veri seti türetilmiştir. Bu yeni veri setlerinin ve verinin orijinal halinin, Naive Bayes algoritması ile sınıflandırılmasının ardından sınıflandırma sonuçları, performans değerlendirme ölçütlerine göre karşılaştırılmıştır. Belirtilen şekilde gerçekleştirilen uygulama sonucunda, makine öğrenmesi algoritmalarının temel eksik veri tamamlamam yöntemlerine göre üstün bir eksik veri tamamlama ve sınıflandırma performansı gösterdiği sonucu elde edilmiştir. Özellikle, En Yakın k-Komşu algoritması ve Rassal Orman algoritmalarının dikkat çekici performanslar gösterdiği tespit edilmiştir.

Özet (Çeviri)

The concept of data has been as important as the necessities of life throughout human history. People have used data to solve problems and make inferences about the future by identifying patterns and relationships. At this point, data, data qualities, and characteristics are key in the information access process. Obtaining information directly from data can be challenging. The data must be properly prepared to perform the required analysis in order to obtain information. A common problem with data sets is missing values, which must be addressed in order to produce meaningful results. It is crucial to solve this problem in order to obtain accurate information and results from the analysis. Missing values should be imputed under appropriate conditions, since the information obtained as a result of analyses in which missing values are ignored will be unrealistic and unhealthy information. It is important to pay particular attention to imputing missing values using a method or methods that reflect the statistical characteristics of the data set and are appropriate for these conditions. Machine learning is a discipline of computer technology and artificial intelligence that uses models trained on data to make predictions about future situations. It offers solutions to problems such as classification, regression, and clustering by using machine learning algorithms. In this thesis, the data in the Hitters dataset were manipulated and randomly removed by 5%, 10% and 15% of its data. Missing values are imputed using basic missing data imputation methods and machine learning algorithms. Listwise Deletion, Last Observation Carried Forward, and Mean Imputation are the preferred basic missing data imputation methods. On the other hand, various machine learning algorithms were employed, including the k-Nearest Neighbor, Random Forest, Stochastic Regression, and Amelia algorithms. Thus, new datasets were derived from the Hitters dataset, in a sense, as many as the number of methods used. After classifying these new datasets and the original data by Naive Bayes algorithm, the classification results were compared and evaluated based on performance criterias. As a result of the application, it was concluded that machine learning algorithms outperformed basic missing data imputation methods in terms of missing data imputation and classification performance. In particular, the k-Nearest Neighbor and Random Forest algorithms have shown noteworthy performance.

Benzer Tezler

  1. Short term electricity load forecasting with deep learning

    Derin öğrenme ile kısa dönemli elektrik yük talep tahmini

    İBRAHİM YAZICI

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA

  2. Performance evaluation of preprocessing to PCA combined machine learning techniques on pharmaceutical and mineral samples by laser-induced breakdown spectroscopy

    Lazer kaynaklı kırılma spektroskopisiyle farmasötik ve mineral numuneleri üzerinde PCA kombine makine öğrenme tekniklerine ön işleme yapılmasının performans değerlendirmesi

    GÖKTUĞ YAZICI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiAtılım Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. REŞAT ÖZGÜR DORUK

  3. Makine öğrenmesi yöntemlerine dayalı veri yönetim sistemi

    Data management system based on machine learning methods

    ÜLGEN AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Endüstri ve Endüstri MühendisliğiAtatürk Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKAY AKKAYA

  4. Sistemli mimari tasarım sürecinde üretken bir yapay yardımcı önerisi

    Proposal for a productive artificial aid in the systematic architectural design process

    BETÜL ŞEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. YÜKSEL DEMİR

  5. Pattern recognition and link prediction in networks via machine learning algorithms: Tenant mix case

    Ağdüzeneklerde makine öğrenmesi algoritmaları yoluyla örüntü tanılaması ve bağlantı tahminlemesi: Kiracı karması vakası

    CANER ASBAŞ

    Doktora

    İngilizce

    İngilizce

    2023

    İşletmeAtılım Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ŞULE TUZLUKAYA