Detection of remote homology in proteins by machine learning algorithms
Uzak homolog proteinlerin makine öğrenme algoritmaları kullanılarak tespiti
- Tez No: 756993
- Danışmanlar: PROF. DR. ULUS ÇEVİK, PROF. DR. TURGAY İBRİKÇİ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Çukurova Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Yönetimde Muhasebe ve Finansal Kontrol Bilim Dalı
- Sayfa Sayısı: 136
Özet
Bu tezin konusu, biyoinformatik alanında önemli bir problem olan uzaktan homolog protein tespitini doğru bir şekilde gerçekleştiren bir makine öğrenmesi algoritması uygulaması geliştirmektir. Uzak homolog proteinlerin keşfi, yapısı bilinmeyen proteinleri keşfetmekte faydalı olduğu için önemlidir. Bu tezde, farklı uzunluktaki protein dizileri problemi, kelime çantası modeli gibi doğal dil işleme yöntemleri kullanılarak çözülmüştür. Bu tez çalışmasının performansları, protein özellikleri olarak farklı uzunluklarda motifler uygulanarak ölçülmüştür. Bu tezde yeni bir uygulama, dengesiz veri sorununa çözüm sunmaktadır. Çeşitli uzaklık yöntemleri ile k-split ile bir KNN yöntemi olan bu yeni uygulama, diğer çalışmalarla rekabet edebilecek niteliktedir. Uzak homolog proteinler, küçük dizi benzerliklerine dayandıkları için çözülmesi zor bir problemdir. Tezde, n-gram üzerinden hesaplanan TF-IDF öznitelik vektörlerini yumuşatma işlemleri ile dengeleyen yeni bir derin sinir ağı ile eğiten yeni bir uygulama daha gerçekleştirilmiştir. Bu yeni uygulama, derin öğrenme algoritmalarının gücünü göstermektedir. Bu yeni uygulama iyi bir performans ile dengesiz veri seti probleminin üstesinden gelmektedir.
Özet (Çeviri)
The subject of this thesis is to develop a machine learning algorithm application that accurately performs remote homologous protein detection, which is an important problem in the field of bioinformatics. The discovery of remote homolog proteins is important because it is beneficial to discover the structure of unknown proteins. In the thesis, the problem of different lengths of protein sequences is solved by using natural language processing methods such as the bag of words model. The performances were measured by applying motifs of different lengths as protein features. A new application in this thesis provides a solution to the unbalanced data problem. This application, which is a KNN method with k-split with various distance methods, is a competitive study. Remote homologous proteins are a difficult problem to solve because they rely on small sequence similarities. In the thesis, another new application that trains with a new deep neural network that balances TF-IDF feature vectors calculated over n-grams with smoothing operations is carried out. The new application demonstrates the power of deep learning algorithms. The new application achieves better performance and overcomes the unbalanced data set.
Benzer Tezler
- Protein homoloji tespitinde bir üst sınıflandırma yaklaşımı
A data fusion approach in protein homology detection
AYDIN CAN POLATKAN
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF.DR. HAYRİ SEVER
- Computational representation of protein sequences for homology detection and classification
Protein dizilimlerinin homoloji sezimi ve sınıflandırma amaçlı bilişimsel gösterimi
HASAN OĞUL
Doktora
İngilizce
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
Y.DOÇ.DR. ERKAN MUMCUOĞLU
- Stress resistance analysis of yeast strains with mitotic exit-related gene deletions
Mitozdan çıkışla ilişkili genleri silinmiş maya hücrelerinin stres direnci analizi
RÜVEYDA GARGI
Yüksek Lisans
İngilizce
2023
Mikrobiyolojiİstanbul Teknik ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
PROF. DR. ZEYNEP PETEK ÇAKAR
DR. ÖĞR. ÜYESİ AYŞE KOCA ÇAYDAŞI
- Bilgisayar destekli enerji yönetim sistemleri ve kontrol merkezleri
Computer based energy management system and control centres
METİN İZGİ
Yüksek Lisans
Türkçe
1992
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF. DR. NESRİN TARKAN
- Uzaktan algılama verilerinden su kalitesi parametrelerinin tespit edilmesi
Detection of water quality parameters from remote sensing data
ERSAN BATUR
Doktora
Türkçe
2019
Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. MİTHAT DERYA MAKTAV