Geri Dön

Sağlık verilerinde aykırı gözlemlere duyarlı ve hastalık tanısına yönelik yeni bir öznitelik seçim yöntemi önerisi

A proposal of new feature selection method sensitive to outliers in health data for disease diagnosis

  1. Tez No: 638010
  2. Yazar: MERT DEMİRARSLAN
  3. Danışmanlar: DOÇ. DR. ASLI SUNER KARAKÜLAH
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 87

Özet

Sağlık alanında, hastalık tanısı için yapılan çalışmalarda yapay zeka algoritmalarının kullanımı giderek önem kazanmaktadır. Yapay zeka algoritmaları, derin öğrenme ve makine öğrenme algoritmaları olmak üzere iki ana başlık altında toplanmaktadır. Makine öğrenme algoritmaları da basit ve topluluk öğrenme olarak iki başlıkta incelenmektedir. Topluluk öğrenme algoritmaları, birden fazla öğrenme fonksiyonunun aynı anda eğitilmesiyle güçlü ve başarılı modellerin oluşturulmasını sağlamaktadır. Bu çalışmada, hastalık tanısı verilerinde ortaya çıkabilen kayıp gözlem, sınıf gürültüsü, sınıf dengesizliği problemlerinin giderilmesinden sonra, aykırı gözlemlere duyarlı yeni öznitelik seçim yöntemiyle ilgisiz değişken probleminin ortadan kaldırılarak, topluluk öğrenme algoritmalarının sınıflandırma performanslarının karşılaştırılması amaçlanmıştır. Çalışmada UCI ve KEEL veri tabanlarından elde edilen Pima, Breast Cancer, Parkinson ve HCC isimli veri setleri kullanılmıştır. Topluluk öğrenme algoritmalarından; Random Forest, Gradient Boosting Machine, Extreme Gradient Boosting Machine, LightBoost, CatBoost ve Bagging algoritmaları %70 eğitim verisi, %30 test verisi alınmıştır.. Algoritmaların sınıflandırma performanslarının karşılaştırılmasında; doğruluk, duyarlılık, kesinlik, F-ölçütü, Kappa istatistiği ölçüm metrikleri hesaplanmıştır. Analizlerde; RStudio 1.2.1335, WEKA 3-8-4, Python Jupyter Notebook 6.0.3, IBM SPSS Statistics 22 programları–Windows10 (64-bit) işletim sisteminde kullanılmıştır. Elde edilen bulgulara göre; ön işleme yapılan verilerde, algoritmaların sınıflandırma performanslarının, verilerin ham haline göre daha yüksek olduğu görülmüştür. Önerilen öznitelik seçim yöntemi ile Fisher Skor yöntemi için algoritmaların sınıflandırma performansları karşılaştırıldığında, önerilen yöntem ile yapılan öznitelik seçiminin tüm veri setlerinde ve tüm algoritmalarda, Fisher Skor yöntemine göre daha yüksek performans göstermiştir. Sonuç olarak, veri ön işleme ve önerilen öznitelik seçim yöntemiyle algoritmaların sınıflandırma performansları artmaktadır.

Özet (Çeviri)

In the field of health, the use of artificial intelligence algorithms is gaining importance in studies conducted for the diagnosis of disease. Artificial intelligence algorithms are gathered under two main headings; including deep learning and machine learning algorithms. Machine learning algorithms are also examined under two main titles as simple and ensemble learning. Ensemble learning algorithms enable the creation of powerful and successful models by training multiple learning functions at the same time. In this study, it was aimed to compare the classification performances of ensemble learning algorithms by eliminating the irrelevant variable problem with the new feature selection method which is sensitive to outliers, after solving the missing value, class noise, and class imbalance problems that may be in the disease diagnosis data. Pima, Breast Cancer, Parkinson and HCC datasets obtained from UCI and KEEL databases were used in the study. From ensemble learning algorithms; Random Forest, Gradient Boosting Machine, Extreme Gradient Boosting Machine, LightBoost, CatBoost and Bagging algorithms were used by taking 70% training data and 30% test data. Accuracy, sensitivity, precision, F-criterion, Kappa statistical measurement metrics were used to compare the classification performance of algorithms. Analysis for; RStudio 1.2.1335, WEKA 3-8-4, Python Jupyter Notebook 6.0.3, IBM SPSS Statistics 22 programs were used in Windows10 (64-bit) operating system. According to the results; in the preprocessed data, it had been observed that the classification performances of the algorithms were higher than the raw data. Comparing the classification performances of algorithms for the proposed feature selection method and the Fisher Score method, the feature selection made with the proposed method performed better in all data sets and all algorithms compared to the Fisher Score method. As a result, the classification performance of algorithms has increased with data preprocessing and suggested feature selection method.

Benzer Tezler

  1. Çok terimli lojistik regresyon modelinde dayanıklı wald tipi test istatistiklerinin kullanımı

    Use of robust wald type test statistics in multinomial logistic regression model

    RAHİME DEMİRALAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    EkonometriSüleyman Demirel Üniversitesi

    Ekonometri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGE GÜNDOĞDU

  2. Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini

    Forecasting the spread of covid-19 using deep learning and big data analytics methods

    CYLAS KIGANDA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. MUHAMMET ALİ AKCAYOL

  3. Sayma verileri için sıfır yığılmalı modellerin karşılaştırılması

    Comparing zero-inflated models for count data

    MUHAMMED FATİH TÜZEN

    Doktora

    Türkçe

    Türkçe

    2018

    İstatistikGazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. SEMRA ERBAŞ

  4. Enriching predictive models using graph embeddings

    Tahminleme modellerinin çizge gömmeleri kullanılarak zenginleştirilmesi

    YAREN YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ

  5. Sayısal sağlık verilerinde farkındalık

    Awareness of digital health data

    DENİZHAN YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilim ve TeknolojiBaşkent Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ESMA ERGÜNER ÖZKOÇ