Gen ifade verilerinde öznitelik seçimi ve sınıflandırma

Feature selection and classification on gene expression data

PDF İndir

Tez No: 352621
Yazar: MAHMUT KAYA
Danışmanlar: DOÇ. DR. HASAN ŞAKİR BİLGE
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2014
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 97

Özet

Biyoloji bilimi ile bilgisayar biliminin bir araya gelmesi sonucu çok disiplinli bir bilim dalı olan biyoinformatik bilimi ortaya çıkmıştır. Hastalık teşhisinde hastalıkla doğrudan ilişkili genleri tespit etmek büyük önem arz etmektedir. Gen ifadeleri içerisinde binlerce öznitelik vardır, fakat bunun yanında az sayıda örnek bulunmaktadır. Örnek sayısının az olması ve öznitelik sayısının fazla olması sınıflandırıcının iyi eğitilememesi problemini ortaya çıkarmaktadır. Bu sebeple büyük veri kümelerinden olan gen ifadelerinde öznitelik seçimi çok önemlidir. Gen ifadelerinde öznitelik seçimi için üç yaklaşım bulunmaktadır. Bunlar istatistiksel yöntemler, sarmal yöntemler ve gömülü yöntemlerdir. İstatistiksel yöntemler öznitelik alt uzayını elde etmede hızlı bir şekilde çözüme ulaşmasına karşın sınıflandırma başarımı açısından yeterince iyi değildir. Sarmal yöntemler bir sınıflandırıcı algoritmasına bağlı olduğundan dolayı algoritma yavaş çalışmakta; ancak en iyi çözüme ulaşmada istatistiksel yöntemlere göre daha başarılı olmaktadır. Gömülü yöntemler ise sınıflandırıcı ve ölçüm kriterini birlikte içinde barındırmaktadır. Gen ifadelerinde öznitelik seçimi için istatistiksel ve sarmal yöntemin birlikte kullanıldığı hibrit yapılar önerilmiştir. Bu tez çalışmasında öncelikle tüm veri kümesinde k en yakın komşu sınıflandırıcısının performansını arttırma amacıyla ağırlıklandırılmış k en yakın komşu yöntemi kullanılmıştır. Ağırlıklandırma katsayıları olarak Fisher korelasyon skor değerleri kullanılmıştır. Yapılan deneyler sonrasında k=3 komşu için başarı oranı %74,14'ten %86,29'a artmıştır. Öznitelik seçme amacıyla öncelikle Fisher korelasyon skor yöntemi ile 500 gen seçilmiştir. Daha sonra ardışık ileri aramanın performansını iyileştirme amacıyla iki adım sonra bir geri arama işlemi uygulanmıştır. Geri arama işlemi için iki farklı yaklaşımdan yararlanılmıştır. Yaklaşımın birinde sınıflandırma doğruluğu kullanılırken, diğerinde FKS değerinden yararlanılmıştır. Önerilen yöntemlerle Destek Vektör Makineleri ile öznitelik seçim işlemi sonucunda başarı oranı %81,00'den %95,14'e artarken; Naive Bayes ile öznitelik seçim işlemi sonucunda başarı oranı %78,14'ten %95,43'e artmıştır. Önerilen yöntem sarmal yöntemlere göre en iyi çözüme daha hızlı bir şekilde ulaşmıştır. Ayrıca hibrit modeller ile daha iyi bir sınıflandırma doğruluğu elde edilmiştir.

Özet (Çeviri)

Bioinformatics which is a multidisciplinary science comes from a combination of computer science and biology. It is very important to find genes which are directly related with a disease on the diagnosis. Gene expressions contain thousands of features. But they also contain tens of samples. A problem occurs in classification where training is not well performed because there exist few samples and many features. Therefore, feature selection is very important on high-dimensional gene expressions. There are basically three approaches for feature selection; statistical, wrapper and embedded methods. Statistical methods obtain quickly feature subset, but they are not so good in terms of classification accuracy. Wrapper methods reach slowly to the solution because of depending on a selected any classifier. However, they are more successful than statistical methods to find the best solution. Embedded methods contain both a classifier and a measurement criterion on their structures. It was suggested some hybrid models which use both statistical methods and wrapper methods for feature selection on gene expressions. In this thesis, firstly, it is used weighted k nearest neighbor method to improve performance of k nearest neighbor classifier. Fisher correlation score values are used as the weighted coefficient. After experiments done, classification accuracy increased from 74.14% to 86.29% for k=3 neighbor. For feature selection, firstly, 500 genes are selected with Fisher correlation score. Then, one backward selection is applied after two iterations to improve performance of sequential forward selection. Two different approaches are used for backward selection. While classification accuracy is used in one approach, it is benefited from FKS value in other. Thanks to proposed methods, while classification accuracy increased from 81.00% to 95.14% with SVM after feature selection, it increased from 78.14% to 95.43% classification accuracy with Naive Bayes. The methods suggested reach faster to the best feature subset compared to wrapper methods. Also, it is obtained better classification accuracy thanks to the hybrid models.

Benzer Tezler

Tez No
337841
Kanser sınıflandırmada mikroRNA ve mRNA anlatım bilgilerinin entegrasyonu
Integrating microRNA and mRNA expression data for cancer classification
ONUR ALTINDAĞ
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Başkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN OĞUL
Tez No
310564
Destek vektör regresyonu ile PID kontrolör tasarımı
Design of PID controller via support vector regression
KEMAL UÇAK
Yüksek Lisans
Türkçe
2012
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLAY ÖKE
Tez No
633878
Mikrodizi gen ifade verilerinde farklı öznitelik seçim yöntemleri ile sınıflama yöntemlerinin performanslarının değerlendirilmesi
The effect of feature selection methods on the success of classification methods in microarray gene expression data
ÖZLEM ARIK
Doktora
Türkçe
2020
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
PROF. DR. ERDEM KARABULUT
Tez No
594059
Gen ifade tahmini için veri bütünleştirme
Data integration for predicting gene expression
TUNCAY BAYRAK
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Başkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HASAN OĞUL
Tez No
395786
Biyoinformatikte çok boyutlu verilerin boyut indirgenerek sınıflandırılması
Classification by dimension reduction of multidimensional data sets in bioinformatics
HATİCE ZEHRA DEMİRCİOĞLU
Yüksek Lisans
Türkçe
2015
Biyomühendislik Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN ŞAKİR BİLGE

Geri Dön