Geri Dön

Detection of remote homology in proteins by machine learning algorithms

Uzak homolog proteinlerin makine öğrenme algoritmaları kullanılarak tespiti

  1. Tez No: 756993
  2. Yazar: FAHRİYE GEMCİ
  3. Danışmanlar: PROF. DR. ULUS ÇEVİK, PROF. DR. TURGAY İBRİKÇİ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Çukurova Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yönetimde Muhasebe ve Finansal Kontrol Bilim Dalı
  13. Sayfa Sayısı: 136

Özet

Bu tezin konusu, biyoinformatik alanında önemli bir problem olan uzaktan homolog protein tespitini doğru bir şekilde gerçekleştiren bir makine öğrenmesi algoritması uygulaması geliştirmektir. Uzak homolog proteinlerin keşfi, yapısı bilinmeyen proteinleri keşfetmekte faydalı olduğu için önemlidir. Bu tezde, farklı uzunluktaki protein dizileri problemi, kelime çantası modeli gibi doğal dil işleme yöntemleri kullanılarak çözülmüştür. Bu tez çalışmasının performansları, protein özellikleri olarak farklı uzunluklarda motifler uygulanarak ölçülmüştür. Bu tezde yeni bir uygulama, dengesiz veri sorununa çözüm sunmaktadır. Çeşitli uzaklık yöntemleri ile k-split ile bir KNN yöntemi olan bu yeni uygulama, diğer çalışmalarla rekabet edebilecek niteliktedir. Uzak homolog proteinler, küçük dizi benzerliklerine dayandıkları için çözülmesi zor bir problemdir. Tezde, n-gram üzerinden hesaplanan TF-IDF öznitelik vektörlerini yumuşatma işlemleri ile dengeleyen yeni bir derin sinir ağı ile eğiten yeni bir uygulama daha gerçekleştirilmiştir. Bu yeni uygulama, derin öğrenme algoritmalarının gücünü göstermektedir. Bu yeni uygulama iyi bir performans ile dengesiz veri seti probleminin üstesinden gelmektedir.

Özet (Çeviri)

The subject of this thesis is to develop a machine learning algorithm application that accurately performs remote homologous protein detection, which is an important problem in the field of bioinformatics. The discovery of remote homolog proteins is important because it is beneficial to discover the structure of unknown proteins. In the thesis, the problem of different lengths of protein sequences is solved by using natural language processing methods such as the bag of words model. The performances were measured by applying motifs of different lengths as protein features. A new application in this thesis provides a solution to the unbalanced data problem. This application, which is a KNN method with k-split with various distance methods, is a competitive study. Remote homologous proteins are a difficult problem to solve because they rely on small sequence similarities. In the thesis, another new application that trains with a new deep neural network that balances TF-IDF feature vectors calculated over n-grams with smoothing operations is carried out. The new application demonstrates the power of deep learning algorithms. The new application achieves better performance and overcomes the unbalanced data set.

Benzer Tezler

  1. Protein homoloji tespitinde bir üst sınıflandırma yaklaşımı

    A data fusion approach in protein homology detection

    AYDIN CAN POLATKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF.DR. HAYRİ SEVER

  2. Computational representation of protein sequences for homology detection and classification

    Protein dizilimlerinin homoloji sezimi ve sınıflandırma amaçlı bilişimsel gösterimi

    HASAN OĞUL

    Doktora

    İngilizce

    İngilizce

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    Y.DOÇ.DR. ERKAN MUMCUOĞLU

  3. Stress resistance analysis of yeast strains with mitotic exit-related gene deletions

    Mitozdan çıkışla ilişkili genleri silinmiş maya hücrelerinin stres direnci analizi

    RÜVEYDA GARGI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Mikrobiyolojiİstanbul Teknik Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı

    PROF. DR. ZEYNEP PETEK ÇAKAR

    DR. ÖĞR. ÜYESİ AYŞE KOCA ÇAYDAŞI

  4. Bilgisayar destekli enerji yönetim sistemleri ve kontrol merkezleri

    Computer based energy management system and control centres

    METİN İZGİ

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. NESRİN TARKAN

  5. Uzaktan algılama verilerinden su kalitesi parametrelerinin tespit edilmesi

    Detection of water quality parameters from remote sensing data

    ERSAN BATUR

    Doktora

    Türkçe

    Türkçe

    2019

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. MİTHAT DERYA MAKTAV