Gen açıklama verilerinin sınıflandırılmasında yeni bir özellik seçimi yöntemi
A novel feature selection method for classification of gene expression data
- Tez No: 651026
- Danışmanlar: PROF. DR. MURTAZA ÖZGÜR YENİAY
- Tez Türü: Doktora
- Konular: Biyoistatistik, İstatistik, Biostatistics, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 82
Özet
DNA mikrodizi veri kümelerinin ortaya çıkışı hem biyoinformatikte hem de makine öğrenmesi alanlarında önemli bir araştırma konusunu canlandırmıştır. Doku veya hücre örneklerinden alınan bu tip veriler, hastalık teşhisinde ya da spesifik tümör tiplerini ayırt etmede faydalı olabilecek bilgileri toplamak için oldukça önemlidir. Gen açıklama verileri olarak bilinen bu veri kümelerindeki en önemli zorluk düzinelerle ifade edilebilen örneklem sayısına karşın binlerce gen bilgisini içermesidir. Bu durum verilerin doğru sınıflandırılması açısından büyük bir dezavantaj oluşturmaktadır. Binlerce gen ve az sayıda örneklemden oluşan gen açıklama verilerinde sınıflandırma yöntemlerinin etkili bir şekilde uygulanması, hastalıkların tanı ve tedavisinde çok önemli bir rol oynamaktadır. Büyük boyutlu verilerde, en ilişkili ve bilgilendirici özellikleri seçerek sınıflandırma performansını artırmak için bir ön işleme adımı olan özellik seçimininin (feature selection) kullanımı kaçınılmazdır. Özellik seçimi yöntemleri literatürde filtre (filter), sarmal (wrapper) ve gömülü (embedded) olmak üzere üç temel başlıkta incelenmektedir. İstatistiksel yöntemler olarak da bilinen filtre yöntemler, sınıflandırma algoritmasından bağımsız olarak özellikleri ayrı ayrı inceleyen, belli bir değerlendirme ölçütüne dayanarak en iyi özellik alt kümesini seçmeyi amaçlayan özellik seçimi yöntemleridir. Bu tez çalışmasında, özellik seçimi için yeni bir filtre yöntemi olarak“Etkin Aralıklara dayalı Özellik Seçimi Algoritması”(Feature Selection Algorithm based on Effective Ranges-FSAER) adlı bir yaklaşım önerilmiştir. Önerilen yöntem, literatürde bulunan“Etkin Aralığa dayalı Gen Seçimi”(Effective Range based Gene Selection-ERGS) ve“Etkin Aralığa dayalı Geliştirilmiş bir Özellik Seçimi”(Improved Feature Selection based on Effective Range-IFSER) yöntemlerinin dikkate almadığı bir eksikliği gidermek üzere geliştirilmiştir. Etkin aralıklara dayanan ERGS ve IFSER algoritmalarının en büyük eksikliği, tüm ayrık aralıklara aynı ağırlık değerini atamalarıdır. FSAER; ERGS ve IFSER yöntemlerinin avantajlarına sahiptir ve ayrıca ayrık etkili aralıkları da hesaba katarak yeni bir toplam alan tanımlamaktadır. Önerilen algoritmanın etkinliğini doğrulamak amacıyla, erişime açık altı farklı gen açıklama veri seti kullanılarak, bilinen beş farklı filtre yöntemi ve FSAER ile farklı büyüklükteki gen alt kümeleri seçilmiştir. Seçilen genler kullanılarak farklı sınıflandırma yöntemlerinin (Naif Bayes, Destek Vektör Makinesi, k-En Yakın Komşu) uygulanması sonucunda sınıflandırma doğrulukları elde edilmiştir. Bu deneylerden elde edilen sonuçlar incelenmiş, FSAER algoritmasının diğer yöntemlerle karşılaştırıldığında sınıflandırma doğrulukları bakımından oldukça etkili sonuçlar verdiği görülmüştür.
Özet (Çeviri)
Emergence of DNA microarray datasets started up a crucial research subject for both bioinformatics and machine learning. This type of data is obtained from tissue or cell samples and used to collect information that may be useful for disease diagnosis or distinguishing specific types of tumors. The biggest difficulty about this type of data – which is known as gene expression data – is that it includes information of thousands of genes whereas sample sizes are limited in a few dozens. This causes a disadvantage to correct classification of data. Effective use of classification methods on gene expression data with thousands of genes and a small amount of sample size plays a vital role in diagnosis and treatment of illnesses. In large datasets like these, it is helpful to use feature selection which is a pre-processing step to increase the classification performance by selecting most related and informative features. Feature selection methods are described in three categories in the literature as filter, wrapper, and embedded methods. Filter methods are statistical feature selection methods that aim to select best feature subsets based on a certain evaluation measurement, independent from the classification algorithm In this thesis, a new filter method for feature selection is suggested, namely“Feature Selection Algorithm based on Effective Ranges (FSAER)”. The suggested method aims to improve two current methods in the literature, namely“Effective Range based Gene Selection (ERGS)”and“Improved Feature Selection based on Effective Range (IFSER)”. ERGS and IFSER methods assign equal weight values to all discrete ranges. FSAER defines a new total area by taking discrete ranges into consideration in addition to having the advantages of ERGS and IFSER. FSAER and five current filter methods are applied to six different open access gene expression datasets in order to validate the effectiveness of the suggested algorithm. Then, several classification methods (support vector machine, Naive Bayes, k-nearest neighbor) are employed to obtain the classification accuracies of the selected gene subsets. Findings of the applications are examined and FSAER is found to have highly effective results with regards to classification accuracy compared to the other methods.
Benzer Tezler
- Çok amaçlı genetik algoritma kullanarak DNA mikrodizi verilerinin kümelenmesi
Clustering DNA microarray data via multi-objective genetic algorithm
MUSTAFA KAHRAMAN
Yüksek Lisans
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBiyomühendislik Ana Bilim Dalı
DOÇ. DR. MEHMET KAYA
- Investigating the genomic differentiation landscape of the large mouse-eared bats
Büyük fare kulaklı yarasaların genomik farklılaşma yapılarının araştırılması
BENGİSU ŞENSOY
Yüksek Lisans
İngilizce
2024
Biyolojiİstanbul Teknik Üniversitesiİklim ve Deniz Bilimleri Ana Bilim Dalı
DOÇ. DR. EMRAH ÇORAMAN
- Leishmania RNA virüs pozitif ve negatif suşların transkriptomik analizi ile farklı ifade edilen genlerin değerlendirilmesi
Evaluation of differently expressed genes by transcriptomic analysis of Leishmania RNA virus positive and negative strains
MUHAMMED NALÇACI
Doktora
Türkçe
2024
ParazitolojiEge ÜniversitesiBiyoloji Ana Bilim Dalı
DOÇ. DR. AHMET MERMER
PROF. DR. SERAY TÖZ
- Serological investigation of peste des petits ruminants in lambs in Iraq-Kirkuk region
Irak–Kerkük bölgesinde kuzularda küçük ruminant vebası (pestedes petits ruminants ppr)'ın seroprevalansı
SARWAT KHORSHED RAHEEM
Yüksek Lisans
İngilizce
2022
Sağlık YönetimiVan Yüzüncü Yıl ÜniversitesiSağlık Bilimleri Ana Bilim Dalı
PROF. DR. SÜLEYMAN KOZAT
- Ortaokul öğrencilerinin 'ortak miras' kavramına ilişkin metaforik algıları
Metaphorical perceptions of secondary school students regarding the concept of 'common heritage'
FADİMANA RABİA BÜYÜKDİKMEN
Yüksek Lisans
Türkçe
2022
Eğitim ve ÖğretimNecmettin Erbakan ÜniversitesiTürkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
DOÇ. DR. TUĞBA CEVRİYE ÖZKARAL