Transkriptom veri seti üzerinde derin öğrenme yöntemi ile klasik veri madenciliği yöntemlerinin sınıflama performanslarının karşılaştırılması
Comparison of classification performance for deep learning method and classical data mining methods on transcriptome data set
- Tez No: 568561
- Danışmanlar: PROF. DR. ERDEM KARABULUT
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: RNA dizileme, kanser, veri madenciliği, sınıflama yöntemleri, Derin Öğrenme, RNA sequencing, cancer, data mining, classification methods, Deep Learning
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
Bu tez çalışmasında akciğer kanseri ve böbrek kanserine ait RNA dizileme verileri kullanılarak, kanser alt türlerinin sınıflandırılmasında klasik veri madenciliği yöntemleri ve Derin Öğrenme yöntemi kullanılmış, sınıflama performansları karşılaştırılmıştır. Çalışmada kullanılan klasik veri madenciliği yöntemleri Yapay Sinir Ağları, Rastgele Orman ve Destek Vektör Makineleri'dir. Akciğer kanseri veri seti iki sınıflı ve sınıf dağılımları dengeli bir veri seti iken böbrek kanseri veri setinde üç sınıf vardır, sınıflardaki gözlem sayıları dengesizdir. Sınıflamada kullanılan gen setleri, farklı filtreler uygulanarak elde edilmiştir. Böylece, farklı özellikte veri setlerinde ve farklı filtrelerde sınıflama yöntemlerinin performansları incelenmiştir. Her sınıflama yöntemi için, parametrelerin alabileceği değer aralıkları belirlenmiş ve eğitim setleri üzerinde denenerek en uygun parametreler seçilmiştir. Çalışmada kullanılan veri setlerinde, klasik veri madenciliği yöntemlerine göre daha derin bir yapıya sahip olan Derin Öğrenme yöntemi başarılı bir performans göstermiştir.
Özet (Çeviri)
In this thesis, Artificial Neural Networks, Random Forest, Support Vector Machines, which are classical data mining methods, and Deep Learning method were used to classify the cancer subtypes. The performances of these methods were compared. For this reason, two different RNA sequencing data sets were used. The first data set is the lung cancer data set which has two classes. It is a balanced data set in terms of class size. The other data set is the renal cancer data set. This data set contains three classes and the number of observation in these classes are uneven. Gene sets used in the classification were obtained by using different filters. Therefore the performances of the classification methods in different data sets and filters were examined. For each classification method, specific parameters were optimized and the most appropriate parameters were selected. Deep Learning method which has a deeper structure compared to classical data mining methods, showed a successful performance on the data sets used in this study.
Benzer Tezler
- A deep learning architecture for missing metabolite concentration prediction
Eksik metabolit miktarı tahmini için bir derin öğrenme mimarisi
SADİ ÇELİK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALİ ÇAKMAK
- A pan-cancer study using TCGA datasets to find possible novel prognostic markers
Yeni olası prognostik belirteçlerin bulunması amacıyla TCGA veri setleri kullanılarak yapılan bir pan-kanser çalışması
BATUHAN KISAKOL
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiVeri Bilimi Ana Bilim Dalı
DR. MEHMET BAYSAN
- Ankilozan spondilit hastalığının moleküler mekanizmasının çoklu-omik verilerin entegre analizi ile incelenmesi
Investigation of molecular mechanism of ankylosing spondylitis by multi-omics data integration
KEREM UZALA
Yüksek Lisans
Türkçe
2022
Biyolojiİstanbul Medeniyet ÜniversitesiBiyolojik Veri Bilimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMED ERKAN KARABEKMEZ
- Survival analysis and its applications in identifying genes, signatures, and pathways in human cancers
Gen, im ve yolak saptanmasında sağkalım analizi ve uygulamaları
AYŞE ÖZHAN
Doktora
İngilizce
2021
Biyolojiİhsan Doğramacı Bilkent ÜniversitesiMalzeme Bilimi ve Nanoteknoloji Ana Bilim Dalı
DOÇ. DR. ÖZLEN KONU KARAKAYALI
- Enhancing grouping-scoring-modeling (G-S-M) approach through a statistical pre-scoring component: A case study for high-dimensional transcriptomic data analysis
Istatistiksel ön puanlama bileşeni ile gruplama puanlama modellemesi (GSM) yaklaşımın geliştirilmesi: Yüksek boyutlu transkriptomik veri analizi için bir vaka çalışması
MAHAM KHOKHAR
Yüksek Lisans
İngilizce
2024
Bilim ve TeknolojiAbdullah Gül ÜniversitesiVeri Bilimi Ana Bilim Dalı
DOÇ. DR. BURCU GÜNGÖR