Geri Dön

Kayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılması

Classification with ensemble methods on missing and imbalanced data

  1. Tez No: 562198
  2. Yazar: ENİS GÜMÜŞTAŞ
  3. Danışmanlar: DOÇ. AYÇA ÇAKMAK PEHLİVANLI
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 60

Özet

Son yıllarda gelişen teknoloji ile üretilen veri miktarı artmış ve veri türleri farklılaşmaya başlamıştır. Farklılaşan veri yapısı farklı veri kaynaklarının da ortaya çıkmasına neden olmuştur. Farklılaşan veri kaynakları ve veri tipleri nedeniyle geleneksel yöntemler yetersiz kalmıştır. Bu nedenle makine öğrenmesi yöntemleri daha da önem kazanmıştır. Verideki örüntülerin keşfedilmesi, var olan ilişkinin ortaya çıkarılması için veri setinin analize uygun olması gerekmektedir. Bu nedenle veri ön işleme aşaması büyük öneme sahiptir. Veri ön işleme aşamasında karşılaşılan sorunlardan biri kayıp veri sorunudur. Kayıp veri sorunu farklı veri kaynaklarından elde edilen verilerin toplanması sırasında meydana gelen sistematik ya da yazılım kaynaklı sorunlar nedeniyle sıklıkla ortaya çıkan bir durumdur. Makine öğrenmesi yöntemlerin çoğu kayıp veri ile çalışamamaktadır. Bu nedenle modelleme aşamasından önce kayıp gözlemlerin doldurulması büyük bir öneme sahiptir. Makine öğrenmesi yöntemlerinde model başarımı algoritma, parametre ya da performans kriterlerinin belirlenmesinin yanı sıra verinin yapısına da bağlı olmaktadır. Sıklıkla kullanılan algoritmaların pek çoğu veri setinde dengeli sınıf dağılımının olduğunu varsayar fakat hedef değişkenin sınıf dağılımının her zaman birbirine yakın olması beklenemez. Gerçek yaşam verilerinde sınıflandırma problemlerinde sıkça karşılaşılan dengesiz veri seti problemi sınıflar arasında görülen çarpık veri dağılımıdır. Bu çarpıklık nedeniyle model eğitim aşamasında baskın olan sınıfa doğru bir eğilim göstermektedir ve bu nedenle de yanlı sonuçlar elde edilmektedir. Bu çalışmada kayıp gözlem içeren ve sınıf dengesizliğine sahip olan veri setinde farklı kayıp gözlem doldurma yöntemleri kullanılarak topluluk öğrenme yöntemlerinin performanslarının karşılaştırılması amaçlanmıştır. Çalışmada farklı kayıp gözlem doldurma yöntemlerine göre model performanslarında ortaya çıkan farklılık ve farklı yöntemler ile doldurulmuş veri setlerinde kullanılan algoritmaların çeşitliliğine göre sonuçlarda ortaya çıkan farklılıkların belirlenmesi hedeflenmiştir. Bu amaçla çalışmada kayıp gözlem ataması için sıcak deste ataması, ortalama ile doldurma, medyan ile doldurma, mod ile doldurma, çoklu atama, beklenti en büyükleme ve k en yakın komşu yöntemleri ile sınıflandırma için Extra Trees, Random Forest, Gradient Boosting, LightGBM ve XGBoost algoritmaları kullanılmıştır. Sonuç olarak yerine koyma metodu ile atama yapılan veriler ile boosting yöntemlerinin iyi sonuç verdiği görülmüştür.

Özet (Çeviri)

In recent years, the amount of data produced by the developing technology has increased and data types have started to differentiate. The differentiated data structure has resulted in different data sources. Due to differentiated data sources and data types, traditional methods have been insufficient. Therefore, machine learning methods have gained more importance. The data set should be suitable for analysis in order to discover the patterns in the data and to reveal the existing relationship. Therefore, the data pre-processing stage is of great importance. One of the problems encountered in the data preprocessing phase is the lost data problem. A missing data problem is often the result of systematic or software-related problems that occur during the collection of data from different data sources. Most of the methods of machine learning are unable to work with lost data. It is therefore of great importance to fill in missing observations before the modeling phase. In machine learning methods, model performance depends on algorithm, hyper-parameters or performance criteria as well as structure of data. Most commonly used algorithms assume that there is a balanced class distribution in the data set, but the class distribution of the target variable cannot always be close to each other. The problem of unbalanced data set frequently encountered in classification problems in real life data is the skewed data distribution between classes. Because of this skewness, the model shows a tendency towards the major class in the training phase and therefore biased results are obtained. In this study, it was aimed to compare the performance of ensemble learning methods by using different missing data imputation methods in the data set which contains the missing data and class imbalance. In the study, it was aimed to determine the differences in the results of the model performances according to the different missing data imputation methods and the differences in the results according to the diversity of algorithms used in the data sets imputed with different methods. For this purpose, in the study for the missing data imputation hot deck imputation, filling with mean, filling with median, filling with mode, multiple imputation, expectation maximization and k nearest neighbor methods were used. For the classification Random Forest, Gradient Boosting, LightGBM and XGBoost algorithms were used. As a result, it was seen that the data given by the substitution method and the boosting methods gave good results.

Benzer Tezler

  1. Blood flow and measurement techniques

    Kan akışı ve ölçüm teknikleri

    AYŞE KANDEMİR AKALIN

    Yüksek Lisans

    İngilizce

    İngilizce

    1995

    Enerjiİstanbul Teknik Üniversitesi

    PROF.DR. OSMAN F. GENCELİ

  2. Evaluating diagnostic loss in compressed medical images using computer simulation

    Sıkıştırılmış tıbbi görüntülerde bilgisayar simülasyonu kullanarak diyagnostik kaybın hesaplanması

    ALPASLAN KOÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Radyoloji ve Nükleer TıpBoğaziçi Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALBERT GÜVENİŞ

  3. Investigation and enhancement of the mechnanical properties of the fabric reinforced hybrid composites

    Kumaş takviyeli hibrit kompozitlerin mekanik özelliklerinin incelenmesi ve iyileştirilmesi

    HANDE SEZGİN

    Doktora

    İngilizce

    İngilizce

    2018

    Tekstil ve Tekstil Mühendisliğiİstanbul Teknik Üniversitesi

    Tekstil Mühendisliği Ana Bilim Dalı

    PROF. DR. ÖMER BERK BERKALP

  4. Kayıp gözlem içeren olumsallık tablolarında log-doğrusal modeller

    Log-linear models for contingency tables with missing data

    EMİNE ÖÇAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikHacettepe Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. AYFER EZGİ YILMAZ

  5. Kayıp veriler ve kayıp veriler için bir çoklu veri atama yöntemi: Propensity skor

    Missing data and a multiple imputation method for missing data: Propensity score

    ELİF ÇİĞDEM KASPAR

    Doktora

    Türkçe

    Türkçe

    2011

    EkonometriMarmara Üniversitesi

    Ekonometri Ana Bilim Dalı

    DOÇ. DR. DİLEK ALTAŞ