Geri Dön

Analysis of leukemia cancer classification with supervised machine learning and deep reinforcement learning based on gene expression monitoring (via DNA microarray)

Denetimli makine öğrenimi ve gen ifade izlemeye dayalı derin takviyeli öğrenme ile lösemi kanseri sınıflandırmasının analizi (DNA mikrodizisi aracılığıyla)

  1. Tez No: 779415
  2. Yazar: ZAID MOHAMMED IBRAHIM IBRAHIM
  3. Danışmanlar: PROF. DR. ULUS ÇEVİK, PROF. DR. TURGAY İBRİKÇİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Derin Takviyeli Öğrenme, Derin öğrenme, Makine öğrenme, Gen Ekspresyonu, Lösemi Kanseri Sınıflandırması, PCA, Rastgele Orman Önemi, Lasso Düzenlileştirme, Deep Reinforcement Learning, Deep learning, Machine Learning, Gene Expression, Leukemia Cancer Classification, PCA, Random Forest Importance, Lasso Regularization
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Çukurova Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 92

Özet

Kanser, dünya genelinde insan sağlığını tehlikeye atan, giderek yaygınlaşan bir risktir ve erken teşhis için olumlu bir prognoz (hastalığın sonucunu tahmini) gerektirmektedir. Dünya nüfusunun önemli bir çoğunluğu kanserden ölmektedir ve araştırma topluluğu, 2025 yılına kadar olası bir kanser vakası artışının şaşırtıcı bir şekilde 25 milyon vakaya ulaşacağı konusunda alarma geçmiştir. Birkaç çalışma, kanser oluşumunun çoğunlukla tehlikeli mutasyonların artmasıyla desteklendiğini kanıtlamıştır ve bu da genom bilgisine dayalı kanserin tanınmasını güçlendirmektedir. Ayrıca, sağlık pratisyenlerine göre kanser, genomun ölümcül hastalıklarından biri olarak belirtilmiştir. Doktorlar, patologlar, biyologlar, veri bilimcileri ve diğer yaşam bilimleri ve sağlık profesyonelleri tarafından, kanseri ve alt tipini, yani Akut Lenfositik Lösemi ve Akut Miyelositik Lösemi hastalıklarını hızlı bir şekilde tanımlayabilen gelişmiş bir otomatik yönteme sahip olmak saatlik bir ihtiyaç olması nedeniyle araştırmaların merkezi olmuştur. Bu araştırma, DNA Gen Ekspresyonunu kullanarak lösemi kanseri alt sınıflarını belirlemeyi amaçlamaktadır. Gen ifadeleri verileri kullanılarak kanser sınıflandırma alanında birçok araştırma bulunabilir. Tüm araştırmalar dört ana kategoriye ayrılabilir: geleneksel veri madenciliği yöntemleri, derin öğrenme yöntemleri, ML yöntemleri ve Derin Takviyeli Öğrenme kullanılarak Sınıflandırma; en ünlü veri kümeleri The Cancer Genome Altus ve The Gen Expression Dataset'tir. Bununla birlikte, literatürün çoğu, bir tür model veya farklı modellerin bir kombinasyonunu kullanmıştır. Bildiğimiz kadarıyla, Makine Öğrenimi modellerinin, Derin Öğrenme modellerinin ve Derin Takviyeli Öğrenme modellerinin optimal anlayışı hala bilinmemektedir veya tek bir yerde mevcut değildir. Bu tez, makine öğrenimi, derin öğrenme ve derin pekiştirmeli öğrenme tabanlı modelleri keşfetmeyi ve uygulamayı ve tüm çalışmalara ve uygulamaya tek bir yerde yardımcı olmak için kapsamlı bir karşılaştırmalı analiz sağlamayı amaçlamaktadır. Lösemi kanseri tahmininde özellik seçiminin önemini göstermek için 3 özellik seçim tekniğinin karşılaştırmalı analizi yapıldı. SVM, Gaussian-NB ve LR veri kümesinin PCA sürümü %91, doğruluk elde etti. Ayrıca, rasgele forest importance veri seti versiyonu ile SVM, %97 gibi daha yüksek doğruluk elde etti ve DNN'nin kement düzenlileştirme veri seti versiyonu iyi performans gösterdi ve %97 gibi daha yüksek bir doğruluk elde etti. PCA veri setine sahip altı farklı Deep-RL modelinden model-3,5,6, %88,24 oranında daha iyi doğruluk elde etti. Altı Deep-RL konfigürasyonunun PCA versiyonu olmasına rağmen, model-1, altı Deep-RL modelinin herhangi bir PCA olmayan (ham veri seti) versiyonundan daha yüksek olan 72 AUROC değerine ulaştı. Ayrıca, Deep-RL model 6'nın altı farklı konfigürasyonundan forest importance veri seti ile %88,24 gibi daha yüksek doğruluk elde etti ve Deep-RL model 1'in altı farklı konfigürasyonu ile kement düzenlileştirme veri seti versiyonu ile %73,53 daha yüksek doğruluk elde etti.

Özet (Çeviri)

Cancer is a progressively common risk that endangers human health around the globe, and an early diagnosis necessitates a positive prognosis. A substantial quota of the world population dies because of cancer, and the research community is alarmed that by 2025 a probable increase of cancer cases will reach a staggering 25 million cases. Several studies have already proven cancer genesis is mostly supported by an accretion of dangerous mutations, amplifying the recognition of cancer based on genome information. Moreover, according to health practitioners, cancer has been stated as one of the most lethal illnesses of the genome. It has been the pivot of research by doctors, pathologists, biologists, data scientists, and other life science and health professionals as it is a need of the hour to have an advanced automated method that can quickly identify cancer and its subtype, i.e., Acute Lymphocytic Leukemia (ALL) and Acute Myelocytic Leukemia (AML). This research aims to identify leukemia cancer subclasses using DNA Gene Expression. Much research can be found using gene expression data in the cancer classification domain. All the research can be categorized into four major categories: traditional data mining methods, Deep Learning (DL) methods, ML methods, and Classification using Deep Reinforcement Learning (RL); the most famous datasets are The Cancer Genome Altus and The Gene Expression Dataset. However, most of the literature utilized one type of model or some combination of different models. To the best of our knowledge, the optimal compassion of Machine Learning (ML) models, DL models, and Deep-RL models are still unknown or unavailable in one place. This thesis aims to explore and implement the models based on ML, DL, and Deep-RL and provide a comparative analysis. A comparative analysis of the three feature selection techniques was performed to show the importance of feature selection in Leukemia cancer prediction. Based on the analysis result, Logistic Regression (LR) gave the highest accuracy of 97% with the raw dataset, while with PCA version of the dataset Support Vector Machine (SVM), Gaussian-NB, and LR obtained an accuracy of 91.%. Furthermore, with the Random Forest (RF) importance dataset version, SVM achieved higher accuracy of 97% along with lasso regularization dataset version of DNN performed well and obtained a higher accuracy of 97%. Out of six different Deep-RL models with PCA dataset, model-3,5,6 achieved better accuracy of 88.24%. Although the PCA version of six Deep-RL configurations, model-1 reached an AUROC value of 72, which is higher than any non-PCA (raw dataset) version of six Deep-RL models. Moreover, with RF importance dataset out of six different configurations of Deep-RL model 6 obtained higher accuracy of 88.24%, and with lasso regularization dataset version six different configurations of Deep-RL model 1 achieved higher accuracy of 73.53%

Benzer Tezler

  1. Sayısal haritalama teknikleri kullanılarak DNA dizilimleri üzerinden lösemi hastalığının temel türlerinin yapay zeka tabanlı algoritmalar ile sınıflandırılması

    Classification of main types of leukemia disease with artificial intelligence-based algorithms on the DNA sequences using digital mapping techniques

    FATMA AKALIN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NEJAT YUMUŞAK

  2. Pediatrik öncü B-ALL'de aday prognostik biyobelirteç genlerinin araştırılması

    Screening of candidate prognostic biomarker genes in pediatric precursor B-ALL

    DİLARA FATMA BALI

    Doktora

    Türkçe

    Türkçe

    2016

    BiyolojiAnkara Üniversitesi

    Temel Biyoteknoloji Ana Bilim Dalı

    PROF. DR. HİLAL ÖZDAĞ

  3. 18 yıllık sürede takip edilen akut lösemi tanılı çocuk olguların analizi

    Analysis of children with acute leukemia followed for 18 years

    FATMA ÇELİK

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2019

    Çocuk Sağlığı ve HastalıklarıSağlık Bilimleri Üniversitesi

    Çocuk Sağlığı ve Hastalıkları Ana Bilim Dalı

    PROF. DR. ZEYNEP YILDIZ YILDIRMAK

  4. Maliyn tümör tanısı alan hastaların epidemiyolojik özellikleri ve sağkalımlarının değerlendirilmesi

    Başlık çevirisi yok

    DAMLA GEÇKALAN SOYSAL

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2016

    HematolojiBaşkent Üniversitesi

    Çocuk Sağlığı ve Hastalıkları Ana Bilim Dalı

    DOÇ. DR. NALAN YAZICI

  5. Quantitative phase analysis in lensless digital inline holographic microscopy

    Merceksiz dijital sıralı holografik mikroskopta kantitatif faz analizi

    ALİ ASLAN DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Biyofizikİzmir Yüksek Teknoloji Enstitüsü

    Fotonik Bilimi ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜSEYİN CUMHUR TEKİN

    PROF. DR. CANAN VARLIKLI