Predicting intracellular functions of proteins from amino acid sequences using language processing methods
Proteinlerin amino asit dizilimlerinin doğal dil işleme metotları ile işlenerek hücre içi fonksiyonlarının tahminlenmesi
- Tez No: 731267
- Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyoloji, Genetik, Computer Engineering and Computer Science and Control, Biology, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 91
Özet
Günümüzde hızla yükselen hesaplama gücü ve gelişiminin doruklarında olan sekanslama teknolojileri hesaplamalı biyoloji alanındaki en önemli sorunlardan olan proteinlerin hücre içi fonksiyonlarının tahminlenebilmesi için yüksek işlem hacmi ile ileri seviye algoritmaların kullanılabilmesine olanak sağlamaktadır. Proteinlerin hücre içi işlevleri aslen üç boyutlu katlanmış yapıları sayesinde ortaya çıkmaktadır. Bu yapılar bir çizge olarak yorumlandığında çizge sinir ağları bu yapılara uygulandığında umut verici sonuçlar ortaya çıkmaktadır. Fakat çoğu protein için üç boyutlu katlanmış yapılar henüz yeterince bilinmediğinden bu yaklaşımlar kısıtlı kalmaktadır. Bununla birlikte proteinlerin amino asit dizilerinin doğal dillere benzer niteliklere sahip olması ve büyük miktarlarda dizi verisi bulunması bu dizilerin doğal dil işleme yöntemleri ile de işlenebileceğini ve işlevsel tahmin yapılabileceğini işaret etmektedir. Bu tezde, protein dizisi verisinin üç boyutlu katlanmış yapıyı da hücre içi fonksiyonu da tahmin etmek için yeterli bilgiyi içerdiği varsayımı ile iki farklı doğal dil işleme yöntemi probleme uyarlanmıştır: (i) çift yönlü dönüştürücü temelli BERT modeli (ii) çizge sinir ağları temelli heterojen çizge evrişimsel sinir ağı modeli. Sonuçlar, proteinleri çizge şeklinde yorumlamanın daha avantajlı olduğunu ortaya koymuştur. Çizge evrişimsel sinir ağları modeli BERT modelinden daha başarılı sonuçlar üretmiş ve üç boyutlu katlanmış yapıların bilgisini de kullanan son teknoloji çizge temelli modele yakın bir performans göstermiştir. Ayrıca, dizideki her amino asidin tek tek kullanılması yerine gruplandırılmış şekilde kullanılmasının daha başarılı sonuçlar ürettiği gözlemlenmiştir.
Özet (Çeviri)
Rapidly increasing computational power and sequencing technologies, which are at the peak of their development, enable the use of advanced algorithms with high processing volume to predict the intracellular functions of proteins, which is one of the most important problems in computational biology. The functionalities of proteins emerge primarily through their three-dimensional folded structures. When these structures are interpreted as graphs, the application of graph neural networks leads to promising results. However, these approaches are limited as the three-dimensional folded structures are not yet known for most proteins. The fact that the amino acid sequences of proteins have properties similar to natural languages and the large amounts of sequence data suggest that these sequences can be processed using natural language processing (NLP) methods. In this thesis, two different NLP methods are adapted to the problem of protein function prediction, assuming that the protein sequence data contain necessary and sufficient information to predict both three-dimensional folded structure and intracellular function: (i) Bidirectional Transoformer BERT model (ii) Heterogeneous Graph Convolutional Network (GCN) model. The results show that it is more advantageous to treat the proteins as graphs. The GCN model performs better than the BERT model and achieves performance close to the state-of-the-art model that uses three-dimensional folding information. In addition, we find that tokenizing the sequences instead of using the individual amino acids as tokens increases the performance.
Benzer Tezler
- Cloning and initial characterization of an estrogen responsive gene: YPEL2
Östrojen yanıt geni YPEL2'nin klonlanması ve proteinin ilkin karakterizasyonu
GİZEM GÜPÜR
Yüksek Lisans
İngilizce
2014
BiyolojiOrta Doğu Teknik ÜniversitesiBiyoloji Ana Bilim Dalı
DOÇ. DR. MESUT MUYAN
- Initial characterization of CXXC5 as a putative DNA binding protein
Potensiyel olarak DNA'ya bağlanan CXXC5 proteininin ön karakterizasyonu
PELİN YAŞAR
Yüksek Lisans
İngilizce
2015
BiyolojiOrta Doğu Teknik ÜniversitesiBiyoloji Ana Bilim Dalı
DOÇ. DR. MESUT MUYAN
- Systematic evolution of novel 2′F-PY RNA aptamers targeting the membrane protein l-arginine/agmatine antiporter purified in mild detergent
Hafif deterjanda saflaştirilmiş l-arjinin/agmatin antiport membran proteinini hedefleyen yeni 2′f-PY RNA aptamerlerinin sistematik evrimi
NOORALDEEN FATHI NOORALDEEN AYOUB
Yüksek Lisans
İngilizce
2021
BiyokimyaOrta Doğu Teknik ÜniversitesiBiyokimya Ana Bilim Dalı
DOÇ. DR. ÇAĞDAŞ DEVRİM SON
DR. MÜSLÜM İLGÜ
- Pattern search in pathogenic bacterial proteins for localization and secretory systems
Patojenik bakteriyel proteinlerde salgı sistemleri için örüntüler aranması
ORHAN ÖZCAN
Doktora
İngilizce
2015
BiyoteknolojiOrta Doğu Teknik ÜniversitesiBiyoteknoloji Ana Bilim Dalı
PROF. DR. GÜLAY ÖZCENGİZ
DOÇ. DR. TOLGA CAN
- Molecular and functional investigation of disease-associated cytoskeletal proteins protrudin and MYO1H
Hastalık ilişkili sitoskeletal proteinler protrudin ve MYO1H'nin moleküler ve fonksiyonel araştırılması
ECE SELÇUK ŞAHİN
Doktora
İngilizce
2024
Biyolojiİstanbul Teknik ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
PROF. DR. ARZU KARABAY KORKMAZ