Sağlık verilerinde aykırı gözlemlere duyarlı ve hastalık tanısına yönelik yeni bir öznitelik seçim yöntemi önerisi
A proposal of new feature selection method sensitive to outliers in health data for disease diagnosis
- Tez No: 638010
- Danışmanlar: DOÇ. DR. ASLI SUNER KARAKÜLAH
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 87
Özet
Sağlık alanında, hastalık tanısı için yapılan çalışmalarda yapay zeka algoritmalarının kullanımı giderek önem kazanmaktadır. Yapay zeka algoritmaları, derin öğrenme ve makine öğrenme algoritmaları olmak üzere iki ana başlık altında toplanmaktadır. Makine öğrenme algoritmaları da basit ve topluluk öğrenme olarak iki başlıkta incelenmektedir. Topluluk öğrenme algoritmaları, birden fazla öğrenme fonksiyonunun aynı anda eğitilmesiyle güçlü ve başarılı modellerin oluşturulmasını sağlamaktadır. Bu çalışmada, hastalık tanısı verilerinde ortaya çıkabilen kayıp gözlem, sınıf gürültüsü, sınıf dengesizliği problemlerinin giderilmesinden sonra, aykırı gözlemlere duyarlı yeni öznitelik seçim yöntemiyle ilgisiz değişken probleminin ortadan kaldırılarak, topluluk öğrenme algoritmalarının sınıflandırma performanslarının karşılaştırılması amaçlanmıştır. Çalışmada UCI ve KEEL veri tabanlarından elde edilen Pima, Breast Cancer, Parkinson ve HCC isimli veri setleri kullanılmıştır. Topluluk öğrenme algoritmalarından; Random Forest, Gradient Boosting Machine, Extreme Gradient Boosting Machine, LightBoost, CatBoost ve Bagging algoritmaları %70 eğitim verisi, %30 test verisi alınmıştır.. Algoritmaların sınıflandırma performanslarının karşılaştırılmasında; doğruluk, duyarlılık, kesinlik, F-ölçütü, Kappa istatistiği ölçüm metrikleri hesaplanmıştır. Analizlerde; RStudio 1.2.1335, WEKA 3-8-4, Python Jupyter Notebook 6.0.3, IBM SPSS Statistics 22 programları–Windows10 (64-bit) işletim sisteminde kullanılmıştır. Elde edilen bulgulara göre; ön işleme yapılan verilerde, algoritmaların sınıflandırma performanslarının, verilerin ham haline göre daha yüksek olduğu görülmüştür. Önerilen öznitelik seçim yöntemi ile Fisher Skor yöntemi için algoritmaların sınıflandırma performansları karşılaştırıldığında, önerilen yöntem ile yapılan öznitelik seçiminin tüm veri setlerinde ve tüm algoritmalarda, Fisher Skor yöntemine göre daha yüksek performans göstermiştir. Sonuç olarak, veri ön işleme ve önerilen öznitelik seçim yöntemiyle algoritmaların sınıflandırma performansları artmaktadır.
Özet (Çeviri)
In the field of health, the use of artificial intelligence algorithms is gaining importance in studies conducted for the diagnosis of disease. Artificial intelligence algorithms are gathered under two main headings; including deep learning and machine learning algorithms. Machine learning algorithms are also examined under two main titles as simple and ensemble learning. Ensemble learning algorithms enable the creation of powerful and successful models by training multiple learning functions at the same time. In this study, it was aimed to compare the classification performances of ensemble learning algorithms by eliminating the irrelevant variable problem with the new feature selection method which is sensitive to outliers, after solving the missing value, class noise, and class imbalance problems that may be in the disease diagnosis data. Pima, Breast Cancer, Parkinson and HCC datasets obtained from UCI and KEEL databases were used in the study. From ensemble learning algorithms; Random Forest, Gradient Boosting Machine, Extreme Gradient Boosting Machine, LightBoost, CatBoost and Bagging algorithms were used by taking 70% training data and 30% test data. Accuracy, sensitivity, precision, F-criterion, Kappa statistical measurement metrics were used to compare the classification performance of algorithms. Analysis for; RStudio 1.2.1335, WEKA 3-8-4, Python Jupyter Notebook 6.0.3, IBM SPSS Statistics 22 programs were used in Windows10 (64-bit) operating system. According to the results; in the preprocessed data, it had been observed that the classification performances of the algorithms were higher than the raw data. Comparing the classification performances of algorithms for the proposed feature selection method and the Fisher Score method, the feature selection made with the proposed method performed better in all data sets and all algorithms compared to the Fisher Score method. As a result, the classification performance of algorithms has increased with data preprocessing and suggested feature selection method.
Benzer Tezler
- Çok terimli lojistik regresyon modelinde dayanıklı wald tipi test istatistiklerinin kullanımı
Use of robust wald type test statistics in multinomial logistic regression model
RAHİME DEMİRALAY
Yüksek Lisans
Türkçe
2023
EkonometriSüleyman Demirel ÜniversitesiEkonometri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGE GÜNDOĞDU
- Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini
Forecasting the spread of covid-19 using deep learning and big data analytics methods
CYLAS KIGANDA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
- Sayma verileri için sıfır yığılmalı modellerin karşılaştırılması
Comparing zero-inflated models for count data
MUHAMMED FATİH TÜZEN
- Enriching predictive models using graph embeddings
Tahminleme modellerinin çizge gömmeleri kullanılarak zenginleştirilmesi
YAREN YILMAZ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ
- Sayısal sağlık verilerinde farkındalık
Awareness of digital health data
DENİZHAN YILMAZ
Yüksek Lisans
Türkçe
2021
Bilim ve TeknolojiBaşkent ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ESMA ERGÜNER ÖZKOÇ