Mikrodizi gen ifade verilerinde farklı öznitelik seçim yöntemleri ile sınıflama yöntemlerinin performanslarının değerlendirilmesi
The effect of feature selection methods on the success of classification methods in microarray gene expression data
- Tez No: 633878
- Danışmanlar: PROF. DR. ERDEM KARABULUT
- Tez Türü: Doktora
- Konular: Biyoistatistik, Genetik, Biostatistics, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 142
Özet
İstatistik, biyoloji, bilgisayar, matematik ve genetik bilimlerini bir arada kullanan disiplinler arası bir bilim dalı olan biyoinformatik sayesinde, hangi hastalığa hangi anormalliklerin neden olduğu gösterilebilmektedir. Çağımızın hastalığı olan kanser de ne kadar erken fark edilirse iyileşme ihtimali o kadar yüksektir. Kanser hastalığında mikrodizi gen ifade verileri ile yapılan teşhis, sınıflama işlemleri, kanserin yapısında etkili olan genlerin belirlenmesi erken teşhiste önemlidir. Tez çalışmasında da akciğer, lenfoma, rahim ağzı, prostat, meme ve lösemi kanser türlerine ait mikrodizi gen ifade verileri üzerinde çalışılmıştır. Verilerin öznitelik sayısı fazla olduğu için daha az sayıda öznitelik ile çalışmak amacıyla varFilter, nsFilter, rf, lasso, rfe ve limma öznitelik seçim yöntemleri ele alınmıştır. Filtrelenmiş veri setlerinde Naive Bayes, Destek Vektör Makineleri, k-En Yakın Komşu ve Yapay Sinir Ağları sınıflama yöntemleri ile son yıllarda popülerlik kazanan Derin Öğrenme yöntemi ile sınıflama modelleri oluşturulmuştur. Veri setlerinde, ele alınan öznitelik seçim yöntemlerinin hangi sınıflama yöntemlerinde daha iyi olduğunu göstermek ve oluşturulan sınıflama modellerinin performanslarını karşılaştırmak için doğruluk, duyarlılık, seçicilik ve ROC eğrisi altında kalan alan değerleri elde edilmiştir. Genellikle lasso ve limma öznitelik seçim yöntemlerinde oluşturulan sınıflama modelleri diğer öznitelik seçim yöntemlerinde oluşturulan modellere göre daha başarılıdır. Derin Öğrenme yöntemi de klasik veri madenciliği sınıflama yöntemlerine göre çoğunlukla daha iyi performans göstermiştir. Yapay Sinir Ağları yöntemi ise diğer sınıflama yöntemlerine göre düşük performansa sahiptir. Veri setleri üzerinde öznitelik seçim yöntemi uygulamadan Derin Öğrenme sınıflama modelleri de elde edilmiştir. Öznitelik seçim yöntemlerini uygulayarak ve uygulamadan elde edilen Derin Öğrenme modellerinin performansları da karşılaştırıldı. Ayrıca benzetim çalışması yapılmıştır ve gerçek veri setlerine benzer sonuçlar elde edilmiştir.
Özet (Çeviri)
Bioinformatics is an interdisciplinary branch of science that combines statistics, biology, computing, mathematics, and genetics, and thanks to the analysis in bioinformatics, it can be shown which disease causes which abnormalities. In the treatment of cancer, which is the disease of our age, early diagnosis increases the probability of treating the disease. In cancer disease, diagnosis with microarray gene expression data, classification procedures and identification of genes that are effective in the structure of cancer are of great importance for early diagnosis of the disease. In the thesis, microarray gene expression data of lung, kidney, lymphoma, cervical, prostate, breast and leukemia cancer types were studied. Since the number of attributes of the data is high, varFilter, nsFilter, rf, lasso, rfe and limma feature selection methods have been discussed. In filtered data sets, classification models were constructed with Naive Bayes, Support Vector Machines, k-Nearest Neighbor, Artificial Neural Networks and Deep Learning method, which has gained popularity in recent years. Accuracy, sensitivity, specificity and AUC were obtained to demonstrate which classification methods are better in the subject feature selection methods and to compare the performance and success of the generated classification models. Generally, classification models obtained in lasso and limma feature selection methods are more successful than models obtained in other feature selection methods. Deep Learning method is also generally more successful than classical data mining classification methods. Artificial Neural Networks method has lower performance than other classification methods. Deep learning classification models were also obtained without applying the feature selection method on the datasets. It was compared whether there is a difference between the performances of deep learning models obtained by applying and without applying attribute selection methods. In addition, implementation steps were carried out in four different simulation data. Similar results were obtained on real and simulation datasets.
Benzer Tezler
- Omik verilerinde otomatik makine öğrenimi algoritmalarının performansının değerlendirilmesi
Performance evaluation of automated machine learning algorithmsin omics data
MELTEM ÜNLÜSAVURAN
Yüksek Lisans
Türkçe
2019
BiyoistatistikErciyes ÜniversitesiBiyoistatistik Ana Bilim Dalı
DOÇ. DR. GÖKMEN ZARARSIZ
- Gen açıklama verilerinin sınıflandırılmasında yeni bir özellik seçimi yöntemi
A novel feature selection method for classification of gene expression data
DERYA TURFAN
Doktora
Türkçe
2020
BiyoistatistikHacettepe Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. MURTAZA ÖZGÜR YENİAY
- RNA-dizileme verilerinin kümelenmesinde yeni istatistiksel yaklaşımlar
Novel statistical approaches in clustering RNA-sequencing data
AHU DURMUŞÇELEBİ
Yüksek Lisans
Türkçe
2019
BiyoistatistikErciyes ÜniversitesiBiyoistatistik Ana Bilim Dalı
DOÇ. DR. GÖKMEN ZARARSIZ
- Saccharomyces Cerevisiae ve Metschnikowia Pulcherrima içeren sıralı fermantasyonda karışık başlangıç kültürünün kullanılmasına yönelik transkripsiyonel yanıt
Transcriptional response to using mixed starter culture during the sequential fermentation involving Saccharomyces Cerevisiae and Metschnikowia Pulcherrima
ELİF BİRCAN MUYANLI
Yüksek Lisans
Türkçe
2022
Gıda MühendisliğiHacettepe ÜniversitesiGıda Mühendisliği Ana Bilim Dalı
PROF. DR. REMZİYE YILMAZ
- Bayesian network based pathway analysis of high throughput biological data
Yüksek çıktılı biyolojik verilerin bayes ağları kullanılarak patika düzleminde analizi
MELİKE KORUCUOĞLU
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ARZUCAN ÖZGÜR
YRD. DOÇ. DR. HASAN HÜSEYİN OTU