Geri Dön

Analysis of cancer dataset with statistical learning

Kanser veri setinin istatistiksel öğrenme ile analizi

  1. Tez No: 849424
  2. Yazar: ASMAA SALIM HUSSAIEN ALWAZY
  3. Danışmanlar: DOÇ. DR. SELİM BUYRUKOĞLU, DR. ÖĞR. ÜYESİ GONCA BUYRUKOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Çankırı Karatekin Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 69

Özet

Kanser, önemli bir küresel sağlık sorunu olarak kalmaya devam ediyor, bu da erken ve doğru teşhisin tedavi sonuçlarını ve hasta iyiliğini artırmadaki kritik önemini vurguluyor. Kanser türlerinin sınıflandırılması, tedavi planlarını kişiselleştirmede, gereksiz işlemleri en aza indirmede ve terapötik başarıyı optimize etmede merkezi bir rol üstleniyor. Bu tez, meme kanseri, akciğer kanseri ve prostat kanseri veri setleri üzerinde istatistiksel öğrenme algoritmaları ve makine öğrenmesi (ML) algoritmalarının kapsamlı bir analizini sunuyor. Ana hedef, çeşitli kanser türleri arasında iyi huylu ve kötü huylu örnekleri ayırt etmede algoritmaların performansını değerlendirmekti. Sağlam ve güvenilir sonuçlar sağlamak için, boş değerlerle ve çift kayıtlarla ilgilenmek üzere veri temizleme, özellik normalizasyonu için veri ölçeklendirme, sınıf dengesizliğiyle başa çıkmak için rastgele fazla örneklem yapma ve eğitim ve test için %80:%20 veri bölme oranını kapsayan kapsamlı bir ön işleme teknikleri adımı uygulandı. Ayrıca, modelin genelleştirme ve sağlamlığını değerlendirmek için çapraz doğrulama kullanıldı. Kanser türlerini doğru bir şekilde teşhis etmenin son derece önemli olması, hasta sonuçları üzerinde önemli bir etki yapma potansiyeline ve tedavi stratejilerini yönlendirme kapasitesine sahip olmasından kaynaklanıyor. Sonuçlar, meme kanseri için sırtlı lojistik regresyon kullanılarak %95.8'den lasso lojistik regresyon kullanılarak %97.2'ye kadar olan etkileyici doğruluk oranlarını sergiledi. Benzer şekilde, Karar Ağacı, SVM, Rastgele Orman ve XGBoost gibi ML algoritmaları, meme kanseri için Rastgele Orman kullanılarak %93'ten XGBoost kullanılarak %98.6'ya kadar doğruluk oranları elde etti. Ayrıca, akciğer kanseri için istatistiksel öğrenme algoritmaları, Sırtlı regresyon kullanılarak %93.75'ten Lasso regresyon kullanılarak %96.87'ye kadar doğruluk oranlarını gösterirken, ML algoritmaları Karar Ağacı kullanılarak %95.83'ten Rastgele Orman kullanılarak %98.95'e kadar doğruluk oranları elde etti. Prostat kanseri için, istatistiksel öğrenme algoritmaları ElastikNet regresyonu kullanılarak %74.11'den Lasso regresyonu kullanılarak %77.64'e kadar, ve ML algoritmaları Karar Ağacı kullanılarak %63.53'ten SVM kullanılarak %75.29'a kadar doğruluk oranları elde etti. Bu bulgular, kanser sınıflandırmasında hem istatistiksel öğrenme hem de ML algoritmalarının etkinliğini vurguluyor ve kanser tespiti ve teşhisinde gerçek dünya senaryolarında uygulanabilirlik potansiyellerini doğruluyor.

Özet (Çeviri)

Cancer continues to pose a significant global health challenge, underscoring the criticality of early and accurate diagnosis for enhancing treatment outcomes and patient well-being. The classification of cancer types assumes a pivotal role in tailoring treatment plans, minimizing unnecessary procedures, and optimizing therapeutic success. This thesis presents an extensive analysis of statistical learning algorithms and machine learning (ML) algorithms on breast cancer, lung cancer, and prostate cancer datasets. The primary objective was to evaluate the algorithms' performance in distinguishing between benign and malignant samples across diverse cancer types. To ensure robust and reliable results, a comprehensive steps of preprocessing techniques was implemented, encompassing data cleaning to address null values and duplicate records, data scaling for feature normalization, random over-sampling to tackle class imbalance, and an 80:20 data splitting ratio for training and testing. Additionally, cross-validation was employed to assess model generalization and robustness. The paramount importance of accurately diagnosing cancer types lies in its potential to significantly impact patient outcomes and guide treatment strategies. The results showcased impressive accuracies ranging from 95.8% using ridge logistic regression to 97.2% using lasso logistic regression for breast cancer. Similarly, ML algorithms, such as Decision Tree, SVM, Random Forest, and XGBoost, achieved accuracies between 93% using random forest to 98.6% using XGBoost for breast cancer. Additionally, lung cancer statistical learning algorithms demonstrated accuracies between 93.75% using Ridge regression to 96.87% using Lasso regression, while ML algorithms achieved accuracies from 95.83% using Decision tree to 98.95% using Random forest. For prostate cancer, statistical learning algorithms achieved accuracies between 74.11% using ElasticNet regression to 77.64% using Lasso regression, and ML algorithms achieved accuracies ranging from 63.53% using Decision tree to 75.29% using SVM. These findings underscore the effectiveness of both statistical learning and ML algorithms in cancer classification, affirming their potential applicability in real-world scenarios to advance cancer detection and diagnosis.

Benzer Tezler

  1. Yapay öğrenme ve biyoinformatik yöntemlerle obezitenin kansere etkisinin araştırılması

    Investigation of the effect of obesity on cancer with artificial learning and bioinformatics methods

    AYŞEGÜL ÇİFÇİ

    Doktora

    Türkçe

    Türkçe

    2023

    BiyoistatistikEge Üniversitesi

    Sağlık Biyoinformatiği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGÜR GÜMÜŞ

  2. Sayısal haritalama teknikleri kullanılarak DNA dizilimleri üzerinden lösemi hastalığının temel türlerinin yapay zeka tabanlı algoritmalar ile sınıflandırılması

    Classification of main types of leukemia disease with artificial intelligence-based algorithms on the DNA sequences using digital mapping techniques

    FATMA AKALIN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NEJAT YUMUŞAK

  3. Machine and deep learning based analysis of tumors on FDG-PET images

    FDG-PET görüntülerindeki tümörlerin makine ve derin öğrenme tabanlı analizi

    OĞUZHAN AYYILDIZ

    Doktora

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiAbdullah Gül Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BÜLENT YILMAZ

  4. Kanser karşıtı peptitlerin tahmininde yeni öznitelik kodlama yöntemleri geliştirilmesi

    Development of new feature encoding methods in prediction of anticancer peptides

    MURAT ESER

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT GÖK

  5. Microwave dielectric property characterization with open-ended coaxial probe and sensing depth analysis of the probes for biological tissues

    Açık uçlu koaksiyel prob ile mikrodalga dielektrik özellik tanımlaması ve biyolojik dokular için probların algılama derinlik analizi

    CEMANUR AYDINALP

    Doktora

    İngilizce

    İngilizce

    2022

    Biyomühendislikİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUBA YILMAZ ABDOLSAHEB