Geri Dön

Hastalık tanısı verilerinde veri ön işlemenin topluluk öğrenme sınıflandırma algoritmaları üzerindeki etkisinin incelenmesi

Investigation of the effect of data preprocessing on ensemble learning classification algorithms in disease diagnosis data

  1. Tez No: 595626
  2. Yazar: YÜKSEL ÖZKAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ASLI SUNER KARAKÜLAH
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Hastalık Tanısı, Veri Ön İşleme, Kayıp Gözlem, Sınıf Gürültüsü, Sınıf Dengesizliği, Topluluk Öğrenme, Disease Diagnosis, Data Preprocessing, Missing Values, Class Noise, Class Imbalance, Ensemble Learning
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 213

Özet

Sağlık alanında hastalığın tanımlanması ve incelenmesi için sınıflandırma yaparken, özellikle karmaşık verilerden anlamlı bilginin ortaya çıkarılmasında, yapay zekâ teknolojisini kullanarak hesaplama yapabilen denetimli makine öğrenme yöntemleri kullanılmaktadır. Topluluk öğrenme yöntemleri ise aynı problemi çözmek için birden fazla öğreniciyi aynı anda eğiterek daha başarılı modellerin kurulmasını sağlamaktadır. Bu çalışmada, sağlık verilerinde doğru hastalık tanısı koymak için kullanılan veri setlerinde olası karşılaşılabilecek kayıp gözlem, sınıf gürültüsü ve sınıf dengesizliği gibi problemlere veri ön işleme yapıldıktan sonra, sınıflandırma algoritmalarının performanslarının karşılaştırılması amaçlanmıştır. Çalışmada, KEEL veri tabanından kalp hastalığı, tiroid, hepatit, lenfödem, meme kanseri ve diyabet gibi hastalıkların tanısı için toplanmış veriler kullanılmıştır. Sınıflandırma yapmak amacıyla, torbalama algoritmalarından rastgele orman ve ağırlıklı alt uzay rastgele orman algoritmaları kullanılırken; artırma algoritmalarından eklemeli lojistik regresyon ve gradyan artırma makinaları algoritmaları kullanılmıştır. Algoritmaların performanslarının karşılaştırılmasında doğruluk, duyarlılık/hassaslık, seçicilik, kesinlik, Kappa istatistiği, Youden indeksi, F - ölçütü ve ROC ölçüm metrikleri kullanılmıştır. Aynı zamanda, algoritmaların çalışma süreleri hesaplanmıştır. Tüm istatistiksel analizler, RStudio 1.2.1335 - Windows 7+ (64-bit) programı ile yapılmıştır. Orijinal veriler ve işlenmiş veriler için algoritmaların performansları karşılaştırıldığında, veri ön işlemeden sonra algoritmaların performans başarılarının arttığı görülmüştür. Genel olarak, artırma algoritmalarının performansları torbalama algoritmalarına göre daha yüksek sonuçlar vermiştir. Algoritmalar çalışma süreleri açısından kıyaslandığında ise, artırma algoritmaları en uzun süre çalışan algoritmalardır. Sonuç olarak, araştırmalar tarafından yüksek performans başarısı hedefleniyorsa, veri ön işleme göz ardı edilmemelidir. Veri ön işlemede, parametrelerin ayarlanma ve değişken seçimi gibi farklı konularda eklenerek benzetim çalışmaları yapılabilir.

Özet (Çeviri)

In the field of health, while classifying for identification and examination of disease, supervised machine learning methods are used, which are able to compute using artificial intelligence technology, in order to extract meaningful information from complex data. Ensemble learning methods enable establishment of more successful models by training multiple learners at the same time to solve same problem. In this study, it is aimed to compare performance of classification algorithms after data preprocessing to problems such as missing values, class noise and class imbalance that may be encountered in data sets used to diagnose accurate disease in health data. In the study, data collected from KEEL database were used to diagnose diseases such as heart disease, thyroid, hepatitis, lymphedema, breast cancer and diabetes. In order to make classification, while random forest and weighted subspace random forest were used as bagging algorithms; additive logistic regression and gradient boosted machines algorithms were used as boosting algorithms. Accuracy, sensitivity, specificity, precision, Kappa statistic, Youden index, F - measure and ROC measurement metrics were used to compare performance of algorithms. At the same time, run times of algorithms were calculated. All statistical analyzes were performed with RStudio 1.2.1335 - Windows 7+ (64-bit) program. When performances of algorithms were compared for original data and processed data, it was seen that performance success of algorithms increased after data preprocessing. In general, performance of boosting algorithms yielded higher results than bagging algorithms. When algorithms were compared in terms of run time, boosting algorithms were the longest running algorithms. As a result, data preprocessing should not be overlooked if research is aimed at high performance success. In data preprocessing, simulation studies can be performed by adding different topics such as tuning parameters and selecting variables.

Benzer Tezler

  1. Akış sitometrisi verilerinde örüntü tanıma

    Pattern recognition in flow cytometry data

    EYYÜP YILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TOLGA ENSARİ

  2. Multitemporal change detection on Urmia lake and its catchment area using remote sensing and geographical information systems

    Urmiye gölündeki zamansal değişimlerin uzaktan algılama ve CBS kullanılarak belirlenmesi

    YUSUF ALIZADE GOVARCHIN GHALE

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    Assoc. Prof. Dr. ELİF SERTEL

  3. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK

  4. Önemli zeytin (Olea europaea L.) çeşitlerinin izoenzim polimorfizmleri ve genetik özellikleri

    Isoenzyme polymorphisms and genetic characteristics of important olive (Olea europaea L.) cultivars and types

    SEVDA DÜLGER

    Yüksek Lisans

    Türkçe

    Türkçe

    2004

    ZiraatÇanakkale Onsekiz Mart Üniversitesi

    Bahçe Bitkileri Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT ŞEKER

  5. A hybrid deep learning metaheuristic model for diagnosis of diabetic retinopathy

    Diyabetik retinopatinin tanısı için hibrit bir derin öğrenme meta-sezgisel modeli

    ÖMER FARUK GÜRCAN

    Doktora

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA