Sağlık verileri üzerinde makine öğrenmesi ile hastalık sınıflandırması: RNA-SEQ, Tiroid ve cilt kanseri uygulamaları

Disease classification on health data using machine learning: Applications on RNA-SEQ, Thyroid, and skin cancer

PDF İndir

Tez No: 961901
Yazar: FERDİ GÜLER
Danışmanlar: DOÇ. DR. MELİH AĞRAZ
Tez Türü: Yüksek Lisans
Konular: Biyoistatistik, Biostatistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Giresun Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 80

Özet

Bu tez kapsamında, üç farklı sağlık verisi üzerinde gerçekleştirilen çalışmalar birleştirilerek; (i) biyoinformatik RNA-Seq böbrek karsinomu, (ii) dermoskopik cilt kanseri görüntüleri ve (iii) kan testlerine dayalı tiroit hastalıkları tablo verilerinin sınıflandırılması hedeflenmiştir. Sınıflandırma süreçlerinde ön işleme ve veri artırma teknikleri kullanılarak çeşitli makine öğrenmesi algoritmaları değerlendirilmiştir. İlk uygulamada, RNA-Seq böbrek karsinomu verisinde ön işleme yöntemlerine ek olarak doğrusal enterpolasyon, SMOTE ve mixup teknikleriyle veri artırımı uygulanmıştır. Bu veriler üzerinde MLP, GNN ve KAN modelleriyle sınıflandırma yapılmış; SMOTE ile artırılan verilerde GNN modelleri %99,47 doğruluk oranıyla en yüksek başarıyı göstermiştir. İkinci uygulamada, cilt kanseri sınıflandırması için ISIC 2019&2020 dermoskopik görüntü veri kümeleri kullanılmıştır. Görüntü ön işleme aşamasında DullRazor, histogram eşitleme ve gama düzeltme yöntemleri uygulanmış ve veri artırma ile dengesizlik giderilmiş; ardından ResNet50, VGG16 ve DenseNet121 gibi transfer öğrenme tabanlı modeller eğitilmiştir. İkili sınıflandırmada VGG16 modeli %90,17, çoklu sınıflandırmada ise %92,92 doğruluk oranı ile en başarılı performansı sergilemiştir. Üçüncü uygulamada, tiroit hastalığı sınıflandırması için UCI veri seti kullanılarak ön işleme sonrası SMOTE, GAN ve mixup teknikleriyle veri artırımı yapılmıştır. Bu aşamada, KAN, MLP, SVM ve RF gibi makine öğrenmesi algoritmalarıyla performansları analiz edilmiştir. RF modeli hem SMOTE hem de mixup tekniklerinde %99,49 doğruluk ile en yüksek başarıyı elde etmiş; GAN yöntemi uygulandığında ise %98,68 doğruluk oranı ile en iyi sonuç KAN modeli tarafından sağlanmıştır. Elde edilen sonuçlar, farklı türdeki sağlık verileri üzerinde uygulanan ön işleme ve veri artırma adımlarının, modern makine öğrenmesi yaklaşımlarının hastalık sınıflandırmasında doğruluğu önemli ölçüde artırabildiğini göstermiştir. Bu çalışmalar gelecekte sağlık alanındaki yapay zekâ uygulamaları için umut verici sonuçlar sunmaktadır.

Özet (Çeviri)

In this thesis, studies conducted on three distinct types of health data were integrated with the aim of classifying: (i) bioinformatics-based RNA-Seq data for kidney chromophobe carcinoma, (ii) dermoscopic skin cancer images, and (iii) tabular data derived from blood tests for thyroid disorders. Throughout the classification processes, various machine learning algorithms were evaluated through the application of preprocessing and data augmentation techniques. In the first study, RNA-Seq data for kidney chromophobe carcinoma were subjected to preprocessing, along with data augmentation techniques such as linear interpolation, SMOTE, and mixup. Classification was performed using MLP, GNN, and KAN models. Among these, the GNN models achieved the highest performance, with an accuracy of 99.47% on the datasets augmented through SMOTE. In the second study, ISIC 2019 & 2020 dermoscopic image datasets were used for skin cancer classification. During the image preprocessing phase, techniques such as DullRazor, histogram equalization, and gamma correction were applied, and data augmentation was employed to address class imbalance. Subsequently, transfer learning-based models including ResNet50, VGG16, and DenseNet121 were trained. The VGG16 model yielded the highest performance, achieving an accuracy of 90.17% in binary classification and 92.92% in multiclass classification tasks. In the third study, thyroid disease classification was conducted using the UCI dataset. After preprocessing, data augmentation was carried out using SMOTE, GAN, and mixup techniques. At this stage, the performance of machine learning algorithms including KAN, MLP, SVM, and RF was analyzed. The RF model achieved the highest accuracy of 99.49% under both SMOTE and mixup conditions, while the best result with the GAN-based augmentation was obtained by the KAN model, with an accuracy of 98.68%. The results demonstrate that the preprocessing and data augmentation steps applied to different types of health data, in conjunction with modern machine learning approaches, can significantly improve disease classification accuracy. These studies present promising outcomes for the future of AI applications in the field of healthcare.

Benzer Tezler

Tez No
919748
A radiogenomics-based approach to clinical decision making
Klinik karar vermede radyogenomik tabanlı bir yaklaşım
MERVE KAŞIKCI ÇAVDAR
Doktora
İngilizce
2025
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
PROF. DR. ERDEM KARABULUT
DOÇ. DR. ERDAL COŞGUN
Tez No
847190
Prediction of COVID 19 disease using chest X-ray images based on deep learning
Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini
ISMAEL ABDULLAH MOHAMMED AL-RAWE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM TEKEREK
Tez No
879686
Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
Tez No
760011
Generalized multi-view data proliferator (gem-vip) for boosting classification
Genelleştirilmiş çok boyutlu veri üretimi ile sınıflandırma hassaslığının yükseltilmesi
MUSTAFA ÇELİK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ISLEM REKIK
Tez No
768890
A hybrid deep learning metaheuristic model for diagnosis of diabetic retinopathy
Diyabetik retinopatinin tanısı için hibrit bir derin öğrenme meta-sezgisel modeli
ÖMER FARUK GÜRCAN
Doktora
İngilizce
2022
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA

Geri Dön