Sağlık verilerinde aykırı gözlemlere duyarlı ve hastalık tanısına yönelik yeni bir öznitelik seçim yöntemi önerisi

A proposal of new feature selection method sensitive to outliers in health data for disease diagnosis

PDF İndir

Tez No: 638010
Yazar: MERT DEMİRARSLAN
Danışmanlar: DOÇ. DR. ASLI SUNER KARAKÜLAH
Tez Türü: Yüksek Lisans
Konular: Biyoistatistik, Biostatistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: Türkçe
Üniversite: Ege Üniversitesi
Enstitü: Sağlık Bilimleri Enstitüsü
Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 87

Özet

Sağlık alanında, hastalık tanısı için yapılan çalışmalarda yapay zeka algoritmalarının kullanımı giderek önem kazanmaktadır. Yapay zeka algoritmaları, derin öğrenme ve makine öğrenme algoritmaları olmak üzere iki ana başlık altında toplanmaktadır. Makine öğrenme algoritmaları da basit ve topluluk öğrenme olarak iki başlıkta incelenmektedir. Topluluk öğrenme algoritmaları, birden fazla öğrenme fonksiyonunun aynı anda eğitilmesiyle güçlü ve başarılı modellerin oluşturulmasını sağlamaktadır. Bu çalışmada, hastalık tanısı verilerinde ortaya çıkabilen kayıp gözlem, sınıf gürültüsü, sınıf dengesizliği problemlerinin giderilmesinden sonra, aykırı gözlemlere duyarlı yeni öznitelik seçim yöntemiyle ilgisiz değişken probleminin ortadan kaldırılarak, topluluk öğrenme algoritmalarının sınıflandırma performanslarının karşılaştırılması amaçlanmıştır. Çalışmada UCI ve KEEL veri tabanlarından elde edilen Pima, Breast Cancer, Parkinson ve HCC isimli veri setleri kullanılmıştır. Topluluk öğrenme algoritmalarından; Random Forest, Gradient Boosting Machine, Extreme Gradient Boosting Machine, LightBoost, CatBoost ve Bagging algoritmaları %70 eğitim verisi, %30 test verisi alınmıştır.. Algoritmaların sınıflandırma performanslarının karşılaştırılmasında; doğruluk, duyarlılık, kesinlik, F-ölçütü, Kappa istatistiği ölçüm metrikleri hesaplanmıştır. Analizlerde; RStudio 1.2.1335, WEKA 3-8-4, Python Jupyter Notebook 6.0.3, IBM SPSS Statistics 22 programları–Windows10 (64-bit) işletim sisteminde kullanılmıştır. Elde edilen bulgulara göre; ön işleme yapılan verilerde, algoritmaların sınıflandırma performanslarının, verilerin ham haline göre daha yüksek olduğu görülmüştür. Önerilen öznitelik seçim yöntemi ile Fisher Skor yöntemi için algoritmaların sınıflandırma performansları karşılaştırıldığında, önerilen yöntem ile yapılan öznitelik seçiminin tüm veri setlerinde ve tüm algoritmalarda, Fisher Skor yöntemine göre daha yüksek performans göstermiştir. Sonuç olarak, veri ön işleme ve önerilen öznitelik seçim yöntemiyle algoritmaların sınıflandırma performansları artmaktadır.

Özet (Çeviri)

In the field of health, the use of artificial intelligence algorithms is gaining importance in studies conducted for the diagnosis of disease. Artificial intelligence algorithms are gathered under two main headings; including deep learning and machine learning algorithms. Machine learning algorithms are also examined under two main titles as simple and ensemble learning. Ensemble learning algorithms enable the creation of powerful and successful models by training multiple learning functions at the same time. In this study, it was aimed to compare the classification performances of ensemble learning algorithms by eliminating the irrelevant variable problem with the new feature selection method which is sensitive to outliers, after solving the missing value, class noise, and class imbalance problems that may be in the disease diagnosis data. Pima, Breast Cancer, Parkinson and HCC datasets obtained from UCI and KEEL databases were used in the study. From ensemble learning algorithms; Random Forest, Gradient Boosting Machine, Extreme Gradient Boosting Machine, LightBoost, CatBoost and Bagging algorithms were used by taking 70% training data and 30% test data. Accuracy, sensitivity, precision, F-criterion, Kappa statistical measurement metrics were used to compare the classification performance of algorithms. Analysis for; RStudio 1.2.1335, WEKA 3-8-4, Python Jupyter Notebook 6.0.3, IBM SPSS Statistics 22 programs were used in Windows10 (64-bit) operating system. According to the results; in the preprocessed data, it had been observed that the classification performances of the algorithms were higher than the raw data. Comparing the classification performances of algorithms for the proposed feature selection method and the Fisher Score method, the feature selection made with the proposed method performed better in all data sets and all algorithms compared to the Fisher Score method. As a result, the classification performance of algorithms has increased with data preprocessing and suggested feature selection method.

Benzer Tezler

Tez No
816546
Çok terimli lojistik regresyon modelinde dayanıklı wald tipi test istatistiklerinin kullanımı
Use of robust wald type test statistics in multinomial logistic regression model
RAHİME DEMİRALAY
Yüksek Lisans
Türkçe
2023
Ekonometri Süleyman Demirel Üniversitesi
Ekonometri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGE GÜNDOĞDU
Tez No
827860
Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini
Forecasting the spread of covid-19 using deep learning and big data analytics methods
CYLAS KIGANDA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
Tez No
509285
Sayma verileri için sıfır yığılmalı modellerin karşılaştırılması
Comparing zero-inflated models for count data
MUHAMMED FATİH TÜZEN
Doktora
Türkçe
2018
İstatistik Gazi Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. SEMRA ERBAŞ
Tez No
966203
Sağlık kurumlarında yalın yönetim ve zaman israfı üzerine bir meta-analiz çalışması
A meta-analysis study on lean management and time waste in healthcare institutions
CENK ÖRNEK
Yüksek Lisans
Türkçe
2025
Sağlık Yönetimi Ankara Üniversitesi
Sağlık Yönetimi Ana Bilim Dalı
PROF. DR. YASEMİN AKBULUT
Tez No
945776
Genç erkek basketbolcularda dikkat konsantrasyon ve denge ile şut performansı arasındaki ilişkilerin incelenmesi
Investigation of the relationships between attention concentration, balance and shooting performance in young male basketball players
HALİT ONUR GÜLVEREN
Doktora
Türkçe
2025
Spor Selçuk Üniversitesi
Antrenörlük Eğitimi Ana Bilim Dalı
PROF. DR. HASAN AKKUŞ

Geri Dön