Geri Dön

Sağlık verileri üzerinde makine öğrenmesi ile hastalık sınıflandırması: RNA-SEQ, Tiroid ve cilt kanseri uygulamaları

Disease classification on health data using machine learning: Applications on RNA-SEQ, Thyroid, and skin cancer

  1. Tez No: 961901
  2. Yazar: FERDİ GÜLER
  3. Danışmanlar: DOÇ. DR. MELİH AĞRAZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Giresun Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 80

Özet

Bu tez kapsamında, üç farklı sağlık verisi üzerinde gerçekleştirilen çalışmalar birleştirilerek; (i) biyoinformatik RNA-Seq böbrek karsinomu, (ii) dermoskopik cilt kanseri görüntüleri ve (iii) kan testlerine dayalı tiroit hastalıkları tablo verilerinin sınıflandırılması hedeflenmiştir. Sınıflandırma süreçlerinde ön işleme ve veri artırma teknikleri kullanılarak çeşitli makine öğrenmesi algoritmaları değerlendirilmiştir. İlk uygulamada, RNA-Seq böbrek karsinomu verisinde ön işleme yöntemlerine ek olarak doğrusal enterpolasyon, SMOTE ve mixup teknikleriyle veri artırımı uygulanmıştır. Bu veriler üzerinde MLP, GNN ve KAN modelleriyle sınıflandırma yapılmış; SMOTE ile artırılan verilerde GNN modelleri %99,47 doğruluk oranıyla en yüksek başarıyı göstermiştir. İkinci uygulamada, cilt kanseri sınıflandırması için ISIC 2019&2020 dermoskopik görüntü veri kümeleri kullanılmıştır. Görüntü ön işleme aşamasında DullRazor, histogram eşitleme ve gama düzeltme yöntemleri uygulanmış ve veri artırma ile dengesizlik giderilmiş; ardından ResNet50, VGG16 ve DenseNet121 gibi transfer öğrenme tabanlı modeller eğitilmiştir. İkili sınıflandırmada VGG16 modeli %90,17, çoklu sınıflandırmada ise %92,92 doğruluk oranı ile en başarılı performansı sergilemiştir. Üçüncü uygulamada, tiroit hastalığı sınıflandırması için UCI veri seti kullanılarak ön işleme sonrası SMOTE, GAN ve mixup teknikleriyle veri artırımı yapılmıştır. Bu aşamada, KAN, MLP, SVM ve RF gibi makine öğrenmesi algoritmalarıyla performansları analiz edilmiştir. RF modeli hem SMOTE hem de mixup tekniklerinde %99,49 doğruluk ile en yüksek başarıyı elde etmiş; GAN yöntemi uygulandığında ise %98,68 doğruluk oranı ile en iyi sonuç KAN modeli tarafından sağlanmıştır. Elde edilen sonuçlar, farklı türdeki sağlık verileri üzerinde uygulanan ön işleme ve veri artırma adımlarının, modern makine öğrenmesi yaklaşımlarının hastalık sınıflandırmasında doğruluğu önemli ölçüde artırabildiğini göstermiştir. Bu çalışmalar gelecekte sağlık alanındaki yapay zekâ uygulamaları için umut verici sonuçlar sunmaktadır.

Özet (Çeviri)

In this thesis, studies conducted on three distinct types of health data were integrated with the aim of classifying: (i) bioinformatics-based RNA-Seq data for kidney chromophobe carcinoma, (ii) dermoscopic skin cancer images, and (iii) tabular data derived from blood tests for thyroid disorders. Throughout the classification processes, various machine learning algorithms were evaluated through the application of preprocessing and data augmentation techniques. In the first study, RNA-Seq data for kidney chromophobe carcinoma were subjected to preprocessing, along with data augmentation techniques such as linear interpolation, SMOTE, and mixup. Classification was performed using MLP, GNN, and KAN models. Among these, the GNN models achieved the highest performance, with an accuracy of 99.47% on the datasets augmented through SMOTE. In the second study, ISIC 2019 & 2020 dermoscopic image datasets were used for skin cancer classification. During the image preprocessing phase, techniques such as DullRazor, histogram equalization, and gamma correction were applied, and data augmentation was employed to address class imbalance. Subsequently, transfer learning-based models including ResNet50, VGG16, and DenseNet121 were trained. The VGG16 model yielded the highest performance, achieving an accuracy of 90.17% in binary classification and 92.92% in multiclass classification tasks. In the third study, thyroid disease classification was conducted using the UCI dataset. After preprocessing, data augmentation was carried out using SMOTE, GAN, and mixup techniques. At this stage, the performance of machine learning algorithms including KAN, MLP, SVM, and RF was analyzed. The RF model achieved the highest accuracy of 99.49% under both SMOTE and mixup conditions, while the best result with the GAN-based augmentation was obtained by the KAN model, with an accuracy of 98.68%. The results demonstrate that the preprocessing and data augmentation steps applied to different types of health data, in conjunction with modern machine learning approaches, can significantly improve disease classification accuracy. These studies present promising outcomes for the future of AI applications in the field of healthcare.

Benzer Tezler

  1. A radiogenomics-based approach to clinical decision making

    Klinik karar vermede radyogenomik tabanlı bir yaklaşım

    MERVE KAŞIKCI ÇAVDAR

    Doktora

    İngilizce

    İngilizce

    2025

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. ERDEM KARABULUT

    DOÇ. DR. ERDAL COŞGUN

  2. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK

  3. Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data

    Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları

    İSMAİL BİLGEN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  4. Generalized multi-view data proliferator (gem-vip) for boosting classification

    Genelleştirilmiş çok boyutlu veri üretimi ile sınıflandırma hassaslığının yükseltilmesi

    MUSTAFA ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ISLEM REKIK

  5. A hybrid deep learning metaheuristic model for diagnosis of diabetic retinopathy

    Diyabetik retinopatinin tanısı için hibrit bir derin öğrenme meta-sezgisel modeli

    ÖMER FARUK GÜRCAN

    Doktora

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA