Geri Dön

Gen ifade verilerinde öznitelik seçimi ve sınıflandırma

Feature selection and classification on gene expression data

  1. Tez No: 352621
  2. Yazar: MAHMUT KAYA
  3. Danışmanlar: DOÇ. DR. HASAN ŞAKİR BİLGE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 97

Özet

Biyoloji bilimi ile bilgisayar biliminin bir araya gelmesi sonucu çok disiplinli bir bilim dalı olan biyoinformatik bilimi ortaya çıkmıştır. Hastalık teşhisinde hastalıkla doğrudan ilişkili genleri tespit etmek büyük önem arz etmektedir. Gen ifadeleri içerisinde binlerce öznitelik vardır, fakat bunun yanında az sayıda örnek bulunmaktadır. Örnek sayısının az olması ve öznitelik sayısının fazla olması sınıflandırıcının iyi eğitilememesi problemini ortaya çıkarmaktadır. Bu sebeple büyük veri kümelerinden olan gen ifadelerinde öznitelik seçimi çok önemlidir. Gen ifadelerinde öznitelik seçimi için üç yaklaşım bulunmaktadır. Bunlar istatistiksel yöntemler, sarmal yöntemler ve gömülü yöntemlerdir. İstatistiksel yöntemler öznitelik alt uzayını elde etmede hızlı bir şekilde çözüme ulaşmasına karşın sınıflandırma başarımı açısından yeterince iyi değildir. Sarmal yöntemler bir sınıflandırıcı algoritmasına bağlı olduğundan dolayı algoritma yavaş çalışmakta; ancak en iyi çözüme ulaşmada istatistiksel yöntemlere göre daha başarılı olmaktadır. Gömülü yöntemler ise sınıflandırıcı ve ölçüm kriterini birlikte içinde barındırmaktadır. Gen ifadelerinde öznitelik seçimi için istatistiksel ve sarmal yöntemin birlikte kullanıldığı hibrit yapılar önerilmiştir. Bu tez çalışmasında öncelikle tüm veri kümesinde k en yakın komşu sınıflandırıcısının performansını arttırma amacıyla ağırlıklandırılmış k en yakın komşu yöntemi kullanılmıştır. Ağırlıklandırma katsayıları olarak Fisher korelasyon skor değerleri kullanılmıştır. Yapılan deneyler sonrasında k=3 komşu için başarı oranı %74,14'ten %86,29'a artmıştır. Öznitelik seçme amacıyla öncelikle Fisher korelasyon skor yöntemi ile 500 gen seçilmiştir. Daha sonra ardışık ileri aramanın performansını iyileştirme amacıyla iki adım sonra bir geri arama işlemi uygulanmıştır. Geri arama işlemi için iki farklı yaklaşımdan yararlanılmıştır. Yaklaşımın birinde sınıflandırma doğruluğu kullanılırken, diğerinde FKS değerinden yararlanılmıştır. Önerilen yöntemlerle Destek Vektör Makineleri ile öznitelik seçim işlemi sonucunda başarı oranı %81,00'den %95,14'e artarken; Naive Bayes ile öznitelik seçim işlemi sonucunda başarı oranı %78,14'ten %95,43'e artmıştır. Önerilen yöntem sarmal yöntemlere göre en iyi çözüme daha hızlı bir şekilde ulaşmıştır. Ayrıca hibrit modeller ile daha iyi bir sınıflandırma doğruluğu elde edilmiştir.

Özet (Çeviri)

Bioinformatics which is a multidisciplinary science comes from a combination of computer science and biology. It is very important to find genes which are directly related with a disease on the diagnosis. Gene expressions contain thousands of features. But they also contain tens of samples. A problem occurs in classification where training is not well performed because there exist few samples and many features. Therefore, feature selection is very important on high-dimensional gene expressions. There are basically three approaches for feature selection; statistical, wrapper and embedded methods. Statistical methods obtain quickly feature subset, but they are not so good in terms of classification accuracy. Wrapper methods reach slowly to the solution because of depending on a selected any classifier. However, they are more successful than statistical methods to find the best solution. Embedded methods contain both a classifier and a measurement criterion on their structures. It was suggested some hybrid models which use both statistical methods and wrapper methods for feature selection on gene expressions. In this thesis, firstly, it is used weighted k nearest neighbor method to improve performance of k nearest neighbor classifier. Fisher correlation score values are used as the weighted coefficient. After experiments done, classification accuracy increased from 74.14% to 86.29% for k=3 neighbor. For feature selection, firstly, 500 genes are selected with Fisher correlation score. Then, one backward selection is applied after two iterations to improve performance of sequential forward selection. Two different approaches are used for backward selection. While classification accuracy is used in one approach, it is benefited from FKS value in other. Thanks to proposed methods, while classification accuracy increased from 81.00% to 95.14% with SVM after feature selection, it increased from 78.14% to 95.43% classification accuracy with Naive Bayes. The methods suggested reach faster to the best feature subset compared to wrapper methods. Also, it is obtained better classification accuracy thanks to the hybrid models.

Benzer Tezler

  1. Kanser sınıflandırmada mikroRNA ve mRNA anlatım bilgilerinin entegrasyonu

    Integrating microRNA and mRNA expression data for cancer classification

    ONUR ALTINDAĞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN OĞUL

  2. Destek vektör regresyonu ile PID kontrolör tasarımı

    Design of PID controller via support vector regression

    KEMAL UÇAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLAY ÖKE

  3. Tam gömülü alt yirmi yaş dişlerinin folikül ebatları ile epidermal büyüme faktörü arasındaki ilişkinin araştırılması

    Exploration of the relation between impacted inferior third molar teeth follicle dimensions and epidermal growth factor

    YEŞİM ERKAN

    Doktora

    Türkçe

    Türkçe

    2013

    Diş HekimliğiGATA

    Ağız, Diş, Çene Hastalıkları ve Cerrahisi Ana Bilim Dalı

    PROF. DR. Necdet DOĞAN

  4. Beyin antioksidan enzimlerinin tip1 diyabet ile değişimi: resveratrol'ün etkileri

    Changes in brain antioxidant enzymes with type 1 diabetes: effects of resveratrol

    DİLAN KONAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    BiyolojiKaramanoğlu Mehmetbey Üniversitesi

    Biyoloji Ana Bilim Dalı

    YRD. DOÇ. DR. GÖKHAN SADİ

  5. Genç yaşta miyokard infarktüsü geçiren hastalar ile endotelyal nitrik oksit sentetaz gen 4b/4a polimorfizmi arasındaki ilişki

    Relationship between endothelial nitrik oxide synthase gene 4b/4a polymorphism and myocardial infarction patients at a young age

    ZEKİ YÜKSEL GÜNAYDIN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2010

    KardiyolojiSağlık Bakanlığı

    Kardiyoloji Ana Bilim Dalı

    DOÇ. DR. NEŞE ÇAM