Geri Dön

Biyoinformatik mikro dizi verileri üzerinde gen seçimi ve sınıflandırma için yeni bir sezgisel yaklaşım geliştirilmesi

Developing a new heuristic approach for gene selection and classification on bioinformatic micro arrays

  1. Tez No: 651645
  2. Yazar: MEHMET BİLEN
  3. Danışmanlar: PROF. DR. TUNCAY YİĞİT, DOÇ. DR. ALİ HAKAN IŞIK
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Süleyman Demirel Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 138

Özet

Lösemi, diğer kanser türlerinde olduğu gibi dünya çapında birçok insanın sağlığını tehdit eden ölümcül bir hastalıktır. Lösemi hastalığına ait gen-kanser ve gen-gen ilişkilerinin ortaya çıkarılabilmesi için mikro dizi verileri aynı anda binlerce genin ekspresyon değerini ölçebilmesinden dolayı yaygın olarak kullanılmaktadır. Bununla beraber mikro dizi verilerinin yüksek veri boyutu ve yetersiz örnek sayısı içermesi analiz çalışmalarını zorlaştırmaktadır. Bu çalışmada mikro dizi verilerinde filtreleme, gen seçimi, sınıflandırma ve diğer analizlerin yapılabilmesi için web tabanlı bir arayüz geliştirilmiştir. Ayrıca lösemi verilerinin içerisindeki anlamlı genlerin filtrelenmesi, veri boyutunun indirgenmesi, gen seçimi işlemlerinin gerçekleştirilmesi ve bu veri kümesine ait örneklerin başarılı bir şekilde sınıflandırılabilmesi için yeni bir hibrit gen seçim algoritması tasarlanmıştır. Geliştirilen algoritma filtreleme ve gen seçimi olmak üzere iki adımdan oluşmaktadır. İlk adımda Fisher korelasyon skoru, Willcoxon rütbeler toplamı ve Bilgi kazanımı algoritmalarından oluşan birlik bir gen seçim algoritması tasarlanarak gen filtreleme işlemi gerçekleştirilmektedir. İkinci adımda ise güçlendirilmiş bir genetik algoritma kullanılarak filtrelenmiş genlerin içerisinden en başarılı genler seçilmektedir. Lösemi veri kümesi üzerinde geliştirilen algoritmanın seçmiş olduğu genler ile gerçekleştirilen sınıflandırma işlemleri sonucunda sadece iki gen ile %100 test başarısı elde edilmiştir. Elde edilen performans değerleri literatürdeki çalışmalar ile karşılaştırıldığında geliştirilen algoritmanın %100 LOOCV ve %100 K10 çapraz doğrulama değerine en az sayıda gen seçimi ile ulaşarak daha başarılı olduğu görülmektedir. Geliştirilen algoritmanın seçmiş olduğu genlerin ortaya çıkarmış olduğu biyolojik bulgular incelendiğinde ise Lösemi hastalığının teşhis, tedavi ve ilaç geliştirime aşamalarında kullanılan onkogenleri genleri başarılı bir şekilde belirlediği görülmektedir. Tez kapsamında geliştirilen web tabanlı arayüz ile dünyanın her yerinden araştırmacıların sadece internet bağlantısına sahip bir cihaz ile kullanabileceği, birçok farklı algoritma ve yaklaşımı farklı birleşimler ile kendi verilerine uygulayabileceği Yapay Zeka çalışma ortamı oluşturulmuştur. Ayrıca literatüre başarılı bir Birlik (Ensemble) - Hibrit gen seçim algoritması kazandırılmıştır. Geliştirilen algoritmanın yüksek veri boyutuna ve yetersiz örneğe sahip diğer veri kümeleri üzerinde başarılı sonuçlar vereceği düşünülmektedir.

Özet (Çeviri)

Leukaemia, as in other cancer types, is a deadly disease that threatens the health of many people worldwide. Micro array data are extensively used due to the fact that it can calculate the expression value of thousands of genes simultaneously in order to reveal the gene-cancer and gene-gene relationships related to Leukaemia. Additionally, the fact that micro array data includes a huge data size and insufficient number of samples makes the analysis studies more difficult. A web-based interface was developed in this study to carry out filtering, gene selection, classification and other analyses on micro array data. Moreover, a new hybrid gene selection algorithm was developed in order to filter significant genes within the leukaemia data, to reduce the data size, to perform gene selection processes, and to successfully classify the samples from this data set. The developed algorithm is made up of two steps; filtering and gene selection. In the first step, gene filtering process is carried out by designing an ensemble gene selection algorithm that is made up of Fisher Correlation Score, Wilcoxon Rank Sum, and Information Gain algorithms. In the second step, most successful genes were chosen among the filtered genes by using a reinforced genetic algorithm. 100% success rate was obtained only from two genes as a result of the classification made through the genes chosen by the developed algorithm from the Leukaemia data set. Upon the comparison of the obtained performance values with the ones from the studies in the literature, it is seen that the developed algorithm is more successful by reaching 100% LOOCV and 100% K10 cross validation value with the least number gene selection. When the biological findings that the genes selected by the developed algorithm are studied, it is seen that it also can successfully identify the oncogenes used in the diagnosis, treatment, and medicine development stages of Leukaemia. Thanks to the web-based interface that was developed within the scope of this thesis, an Artificial Intelligence environment was created where researchers from all over the world can access by a device with internet connection and which can help them practice various algorithms and approaches in different combinations for their data. Furthermore, a new and successful Ensemble-Hybrid gene selection algorithm was brought into the literature. It is thought that the developed algorithm can yield more successful results for other datasets with huge data size and insufficient samples.

Benzer Tezler

  1. Mikrodizi gen ifade verilerinde farklı öznitelik seçim yöntemleri ile sınıflama yöntemlerinin performanslarının değerlendirilmesi

    The effect of feature selection methods on the success of classification methods in microarray gene expression data

    ÖZLEM ARIK

    Doktora

    Türkçe

    Türkçe

    2020

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. ERDEM KARABULUT

  2. Mikrodizi verileri üzerinde kümeleme algoritmalarının uygulaması

    Application of clustering algorithms on microarray data

    ASİYE ULAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. DERVİŞ KARABOĞA

  3. Biyoinformatikte çok boyutlu verilerin boyut indirgenerek sınıflandırılması

    Classification by dimension reduction of multidimensional data sets in bioinformatics

    HATİCE ZEHRA DEMİRCİOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    BiyomühendislikGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN ŞAKİR BİLGE

  4. Mikrodizi verilerinde kullanılan farklı normalleştirme yöntemlerinin derin öğrenme performanslarına etkisi

    The effect of different normalization methods used in microarray data on DEEP learning performances

    ASENA AYÇA ÖZDEMİR

    Doktora

    Türkçe

    Türkçe

    2022

    BiyoistatistikMersin Üniversitesi

    Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı

    PROF. DR. GÜLHAN TEMEL

    PROF. DR. SAİM YOLOĞLU

  5. NF-KB transkripsiyon faktörleri üzerinde flavonoid etkisinin endometrium hücre soyları kullanılarak araştırılması

    The effect of flavonoids on NF-ΚB transcription factors in endometrial cancer cell lines

    ZEYNEP BİRSU ÇİNÇİN

    Doktora

    Türkçe

    Türkçe

    2014

    Genetikİstanbul Üniversitesi

    Moleküler Tıp Ana Bilim Dalı

    PROF. DR. BEDİA ÇAKMAKOĞLU