Geri Dön

Gen ifade verilerinde öznitelik seçimi ve sınıflandırma

Feature selection and classification on gene expression data

  1. Tez No: 352621
  2. Yazar: MAHMUT KAYA
  3. Danışmanlar: DOÇ. DR. HASAN ŞAKİR BİLGE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 97

Özet

Biyoloji bilimi ile bilgisayar biliminin bir araya gelmesi sonucu çok disiplinli bir bilim dalı olan biyoinformatik bilimi ortaya çıkmıştır. Hastalık teşhisinde hastalıkla doğrudan ilişkili genleri tespit etmek büyük önem arz etmektedir. Gen ifadeleri içerisinde binlerce öznitelik vardır, fakat bunun yanında az sayıda örnek bulunmaktadır. Örnek sayısının az olması ve öznitelik sayısının fazla olması sınıflandırıcının iyi eğitilememesi problemini ortaya çıkarmaktadır. Bu sebeple büyük veri kümelerinden olan gen ifadelerinde öznitelik seçimi çok önemlidir. Gen ifadelerinde öznitelik seçimi için üç yaklaşım bulunmaktadır. Bunlar istatistiksel yöntemler, sarmal yöntemler ve gömülü yöntemlerdir. İstatistiksel yöntemler öznitelik alt uzayını elde etmede hızlı bir şekilde çözüme ulaşmasına karşın sınıflandırma başarımı açısından yeterince iyi değildir. Sarmal yöntemler bir sınıflandırıcı algoritmasına bağlı olduğundan dolayı algoritma yavaş çalışmakta; ancak en iyi çözüme ulaşmada istatistiksel yöntemlere göre daha başarılı olmaktadır. Gömülü yöntemler ise sınıflandırıcı ve ölçüm kriterini birlikte içinde barındırmaktadır. Gen ifadelerinde öznitelik seçimi için istatistiksel ve sarmal yöntemin birlikte kullanıldığı hibrit yapılar önerilmiştir. Bu tez çalışmasında öncelikle tüm veri kümesinde k en yakın komşu sınıflandırıcısının performansını arttırma amacıyla ağırlıklandırılmış k en yakın komşu yöntemi kullanılmıştır. Ağırlıklandırma katsayıları olarak Fisher korelasyon skor değerleri kullanılmıştır. Yapılan deneyler sonrasında k=3 komşu için başarı oranı %74,14'ten %86,29'a artmıştır. Öznitelik seçme amacıyla öncelikle Fisher korelasyon skor yöntemi ile 500 gen seçilmiştir. Daha sonra ardışık ileri aramanın performansını iyileştirme amacıyla iki adım sonra bir geri arama işlemi uygulanmıştır. Geri arama işlemi için iki farklı yaklaşımdan yararlanılmıştır. Yaklaşımın birinde sınıflandırma doğruluğu kullanılırken, diğerinde FKS değerinden yararlanılmıştır. Önerilen yöntemlerle Destek Vektör Makineleri ile öznitelik seçim işlemi sonucunda başarı oranı %81,00'den %95,14'e artarken; Naive Bayes ile öznitelik seçim işlemi sonucunda başarı oranı %78,14'ten %95,43'e artmıştır. Önerilen yöntem sarmal yöntemlere göre en iyi çözüme daha hızlı bir şekilde ulaşmıştır. Ayrıca hibrit modeller ile daha iyi bir sınıflandırma doğruluğu elde edilmiştir.

Özet (Çeviri)

Bioinformatics which is a multidisciplinary science comes from a combination of computer science and biology. It is very important to find genes which are directly related with a disease on the diagnosis. Gene expressions contain thousands of features. But they also contain tens of samples. A problem occurs in classification where training is not well performed because there exist few samples and many features. Therefore, feature selection is very important on high-dimensional gene expressions. There are basically three approaches for feature selection; statistical, wrapper and embedded methods. Statistical methods obtain quickly feature subset, but they are not so good in terms of classification accuracy. Wrapper methods reach slowly to the solution because of depending on a selected any classifier. However, they are more successful than statistical methods to find the best solution. Embedded methods contain both a classifier and a measurement criterion on their structures. It was suggested some hybrid models which use both statistical methods and wrapper methods for feature selection on gene expressions. In this thesis, firstly, it is used weighted k nearest neighbor method to improve performance of k nearest neighbor classifier. Fisher correlation score values are used as the weighted coefficient. After experiments done, classification accuracy increased from 74.14% to 86.29% for k=3 neighbor. For feature selection, firstly, 500 genes are selected with Fisher correlation score. Then, one backward selection is applied after two iterations to improve performance of sequential forward selection. Two different approaches are used for backward selection. While classification accuracy is used in one approach, it is benefited from FKS value in other. Thanks to proposed methods, while classification accuracy increased from 81.00% to 95.14% with SVM after feature selection, it increased from 78.14% to 95.43% classification accuracy with Naive Bayes. The methods suggested reach faster to the best feature subset compared to wrapper methods. Also, it is obtained better classification accuracy thanks to the hybrid models.

Benzer Tezler

  1. Kanser sınıflandırmada mikroRNA ve mRNA anlatım bilgilerinin entegrasyonu

    Integrating microRNA and mRNA expression data for cancer classification

    ONUR ALTINDAĞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN OĞUL

  2. Destek vektör regresyonu ile PID kontrolör tasarımı

    Design of PID controller via support vector regression

    KEMAL UÇAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLAY ÖKE

  3. Mikrodizi gen ifade verilerinde farklı öznitelik seçim yöntemleri ile sınıflama yöntemlerinin performanslarının değerlendirilmesi

    The effect of feature selection methods on the success of classification methods in microarray gene expression data

    ÖZLEM ARIK

    Doktora

    Türkçe

    Türkçe

    2020

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. ERDEM KARABULUT

  4. Gen ifade tahmini için veri bütünleştirme

    Data integration for predicting gene expression

    TUNCAY BAYRAK

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HASAN OĞUL

  5. Biyoinformatikte çok boyutlu verilerin boyut indirgenerek sınıflandırılması

    Classification by dimension reduction of multidimensional data sets in bioinformatics

    HATİCE ZEHRA DEMİRCİOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    BiyomühendislikGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN ŞAKİR BİLGE