Analysis of cancer dataset with statistical learning
Kanser veri setinin istatistiksel öğrenme ile analizi
- Tez No: 849424
- Danışmanlar: DOÇ. DR. SELİM BUYRUKOĞLU, DR. ÖĞR. ÜYESİ GONCA BUYRUKOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Çankırı Karatekin Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 69
Özet
Kanser, önemli bir küresel sağlık sorunu olarak kalmaya devam ediyor, bu da erken ve doğru teşhisin tedavi sonuçlarını ve hasta iyiliğini artırmadaki kritik önemini vurguluyor. Kanser türlerinin sınıflandırılması, tedavi planlarını kişiselleştirmede, gereksiz işlemleri en aza indirmede ve terapötik başarıyı optimize etmede merkezi bir rol üstleniyor. Bu tez, meme kanseri, akciğer kanseri ve prostat kanseri veri setleri üzerinde istatistiksel öğrenme algoritmaları ve makine öğrenmesi (ML) algoritmalarının kapsamlı bir analizini sunuyor. Ana hedef, çeşitli kanser türleri arasında iyi huylu ve kötü huylu örnekleri ayırt etmede algoritmaların performansını değerlendirmekti. Sağlam ve güvenilir sonuçlar sağlamak için, boş değerlerle ve çift kayıtlarla ilgilenmek üzere veri temizleme, özellik normalizasyonu için veri ölçeklendirme, sınıf dengesizliğiyle başa çıkmak için rastgele fazla örneklem yapma ve eğitim ve test için %80:%20 veri bölme oranını kapsayan kapsamlı bir ön işleme teknikleri adımı uygulandı. Ayrıca, modelin genelleştirme ve sağlamlığını değerlendirmek için çapraz doğrulama kullanıldı. Kanser türlerini doğru bir şekilde teşhis etmenin son derece önemli olması, hasta sonuçları üzerinde önemli bir etki yapma potansiyeline ve tedavi stratejilerini yönlendirme kapasitesine sahip olmasından kaynaklanıyor. Sonuçlar, meme kanseri için sırtlı lojistik regresyon kullanılarak %95.8'den lasso lojistik regresyon kullanılarak %97.2'ye kadar olan etkileyici doğruluk oranlarını sergiledi. Benzer şekilde, Karar Ağacı, SVM, Rastgele Orman ve XGBoost gibi ML algoritmaları, meme kanseri için Rastgele Orman kullanılarak %93'ten XGBoost kullanılarak %98.6'ya kadar doğruluk oranları elde etti. Ayrıca, akciğer kanseri için istatistiksel öğrenme algoritmaları, Sırtlı regresyon kullanılarak %93.75'ten Lasso regresyon kullanılarak %96.87'ye kadar doğruluk oranlarını gösterirken, ML algoritmaları Karar Ağacı kullanılarak %95.83'ten Rastgele Orman kullanılarak %98.95'e kadar doğruluk oranları elde etti. Prostat kanseri için, istatistiksel öğrenme algoritmaları ElastikNet regresyonu kullanılarak %74.11'den Lasso regresyonu kullanılarak %77.64'e kadar, ve ML algoritmaları Karar Ağacı kullanılarak %63.53'ten SVM kullanılarak %75.29'a kadar doğruluk oranları elde etti. Bu bulgular, kanser sınıflandırmasında hem istatistiksel öğrenme hem de ML algoritmalarının etkinliğini vurguluyor ve kanser tespiti ve teşhisinde gerçek dünya senaryolarında uygulanabilirlik potansiyellerini doğruluyor.
Özet (Çeviri)
Cancer continues to pose a significant global health challenge, underscoring the criticality of early and accurate diagnosis for enhancing treatment outcomes and patient well-being. The classification of cancer types assumes a pivotal role in tailoring treatment plans, minimizing unnecessary procedures, and optimizing therapeutic success. This thesis presents an extensive analysis of statistical learning algorithms and machine learning (ML) algorithms on breast cancer, lung cancer, and prostate cancer datasets. The primary objective was to evaluate the algorithms' performance in distinguishing between benign and malignant samples across diverse cancer types. To ensure robust and reliable results, a comprehensive steps of preprocessing techniques was implemented, encompassing data cleaning to address null values and duplicate records, data scaling for feature normalization, random over-sampling to tackle class imbalance, and an 80:20 data splitting ratio for training and testing. Additionally, cross-validation was employed to assess model generalization and robustness. The paramount importance of accurately diagnosing cancer types lies in its potential to significantly impact patient outcomes and guide treatment strategies. The results showcased impressive accuracies ranging from 95.8% using ridge logistic regression to 97.2% using lasso logistic regression for breast cancer. Similarly, ML algorithms, such as Decision Tree, SVM, Random Forest, and XGBoost, achieved accuracies between 93% using random forest to 98.6% using XGBoost for breast cancer. Additionally, lung cancer statistical learning algorithms demonstrated accuracies between 93.75% using Ridge regression to 96.87% using Lasso regression, while ML algorithms achieved accuracies from 95.83% using Decision tree to 98.95% using Random forest. For prostate cancer, statistical learning algorithms achieved accuracies between 74.11% using ElasticNet regression to 77.64% using Lasso regression, and ML algorithms achieved accuracies ranging from 63.53% using Decision tree to 75.29% using SVM. These findings underscore the effectiveness of both statistical learning and ML algorithms in cancer classification, affirming their potential applicability in real-world scenarios to advance cancer detection and diagnosis.
Benzer Tezler
- Yapay öğrenme ve biyoinformatik yöntemlerle obezitenin kansere etkisinin araştırılması
Investigation of the effect of obesity on cancer with artificial learning and bioinformatics methods
AYŞEGÜL ÇİFÇİ
Doktora
Türkçe
2023
BiyoistatistikEge ÜniversitesiSağlık Biyoinformatiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGÜR GÜMÜŞ
- Sayısal haritalama teknikleri kullanılarak DNA dizilimleri üzerinden lösemi hastalığının temel türlerinin yapay zeka tabanlı algoritmalar ile sınıflandırılması
Classification of main types of leukemia disease with artificial intelligence-based algorithms on the DNA sequences using digital mapping techniques
FATMA AKALIN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NEJAT YUMUŞAK
- Machine and deep learning based analysis of tumors on FDG-PET images
FDG-PET görüntülerindeki tümörlerin makine ve derin öğrenme tabanlı analizi
OĞUZHAN AYYILDIZ
Doktora
İngilizce
2022
Elektrik ve Elektronik MühendisliğiAbdullah Gül ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BÜLENT YILMAZ
- Kanser karşıtı peptitlerin tahmininde yeni öznitelik kodlama yöntemleri geliştirilmesi
Development of new feature encoding methods in prediction of anticancer peptides
MURAT ESER
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT GÖK
- Microwave dielectric property characterization with open-ended coaxial probe and sensing depth analysis of the probes for biological tissues
Açık uçlu koaksiyel prob ile mikrodalga dielektrik özellik tanımlaması ve biyolojik dokular için probların algılama derinlik analizi
CEMANUR AYDINALP
Doktora
İngilizce
2022
Biyomühendislikİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUBA YILMAZ ABDOLSAHEB