Prediction of non-coding driver mutations using ensemble learning
Topluluk öğrenmesi kullanarak kodlayıcı olmayan sürücü mutasyonlarının tahmini
- Tez No: 875395
- Danışmanlar: YRD. DOÇ. DR. BURÇAK OTLU SARITAŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
- Bilim Dalı: Veri Bilimi Bilim Dalı
- Sayfa Sayısı: 89
Özet
Sürücü kodlayan mutasyonları kapsamlı bir şekilde incelenmekte ve protein fonksiyonunu etkileyen zararlı amino asit değişiklikleri nedeniyle sıklıkla tespit edilmektedir. Ancak sürücü kodlamayan mutasyonların tespiti için daha fazla analize ve deneysel doğrulamaya ihtiyaç vardır. Burada, mevcut açıklama ve etki tahmin araçlarından gelen özelliklerle zenginleştirilmiş, yeni uzun menzilli etkileşim özelliklerine ve tasarlanmış transkripsiyon faktörü bağlama alanı özelliklerine dayalı olarak sürücü kodlamayan mutasyonları tahmin etmek için Güçlü Gradyan Arttırma (GGA) algoritmasını kullanıyoruz. Dizileri içeren yeni bir yöntem kullanarak uzun menzilli etkileşimli ilgi alanlarının sıklığını ve yayılmasını hesaplıyoruz. Transkripsiyon faktörü (TF) bağlama bölgelerindeki fonksiyonların kaybını ve kazanımını tahmin etmek için Rastgele Seçilmiş Gradyan İnişi (RGİ) algoritmasını kullanan transkripsiyon faktörü (TF) modellerini eğitiyoruz. Ayrıca mevcut açıklama ve etki tahmin araçlarından gelen özellikleri de dahil ediyoruz. Ortaya çıkan veri seti, metodik bir özellik seçimi ve özellik mühendisliği hattından geçirilir ve ardından sürücüye karşı yolcu kodlamayan mutasyonları tahmin etmek için gradyan artırma modelimizle eğitilir. Daha sonra diğer çalışmalarda bulunan kodlamayan sürücü mutasyonlarını kullanır, benzer şekilde açıklamalar ekler ve modelimizi test ederiz. Ayrıca mevcut literatürden bir sürücü keşif arttırılmış ağaçlar modeli uyguluyoruz ve bunu karşılaştırmalarımıza ekliyoruz. Daha sonra, açıklanabilir yapay zeka metodolojilerini kullanarak sonuçları detaylandırıyoruz. Sonuçlarımız, model eğitiminde kullanılmayan test verileri üzerinde ortalamanın üzerinde bir performans gösteriyor ve ek açıklamalarımızı kullanarak ve elde edilen verileri gradyan artırıcı ağaçlar kullanarak eğiterek, sürücü ile yolcu kodlamayan mutasyon arasındaki sınıflandırmanın nispeten yüksek doğruluk dereceleriyle mümkün olduğunu gösteriyor.
Özet (Çeviri)
Driver coding mutations are extensively studied and frequently detected due to their deleterious amino acid changes that affect protein function. However, driver non-coding mutations need further analysis and experimental validation for detection. Here, we employ the XGBoost (eXtreme Gradient Boosting) algorithm to predict driver non-coding mutations based on novel long-range interaction features and engineered transcription factor binding site features, augmented with features from existing annotation and effect prediction tools. We utilize a novel method involving arrays to accurately capture the frequency and distribution of long-range interacting regions of interest. We use transcription factor (TF) models trained using the stochastic gradient descent (SGD) algorithm to predict the loss and gain of functions at TF binding sites. We also include features from existing annotation and variant effect prediction tools. The resulting dataset is passed through a forward stepwise selection and feature engineering pipeline and then trained with our gradient boosting model to predict driver versus passenger non-coding mutations. We also pass our dataset through a known driver discovery model from existing literature, which is a combination of 50 gradient-boosted tree models. We then use non-coding driver mutations found in other state-of-the-art studies, similarly annotate them, and predict their driver-ness using our models in order to evaluate our models' prediction capabilities. Furthermore, we use Explainable AI methodologies to perform an in-depth analysis of the generated predictions. Our results show an above-average performance on the unseen validation data and suggest that, by using our annotations and training the resulting data using gradient boosting trees, the classification between a driver versus passenger non-coding mutation is possible with relatively high degrees of accuracy.
Benzer Tezler
- Video based detection of driver fatigue
Görüntü aracılığıyla sürücüde yorgunluğun sezimi
ESRA VURAL
Doktora
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiPROF. DR. AYTUL ERCİL
YRD. DOÇ. DR. MUJDAT CETİN
- Düşük bir hızlarında konuşma kodlama ve uygulamaları
Low bit rate speech coding and applications
TARIK AŞKIN
Doktora
Türkçe
1999
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. GÜNSEL DURUSOY
- Otonom araçlarda clothoid tabanlı lineer zamanla değişen model öngörülü kontrol
Clothoid based linear time varying model predictive control in autonomous vehicles
MUSTAFA CANER SEZER
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. AFİFE LEYLA GÖREN
- MPEG hareketli görüntü sıkıştırma standardı
Başlık çevirisi yok
ERHAN TELLİOĞLU
Yüksek Lisans
Türkçe
1995
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiDOÇ.DR. MELİH PAZARCI
- Design, analysis and verification of conventional and non-conventional cylindrical cfrp composite shell with optimized cutout under the effect of combined loading
Üzerinde kesitler olan geleneksel ve geleneksel olmayan silindirik karbon fiber kompozit polimer kabuğun bileşik yükleme altında tasarım, analiz ve doğrulanması
MANSUR ÇELEBİ
Doktora
İngilizce
2017
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. HALİT SÜLEYMAN TÜRKMEN
PROF. DR. ZAFER GÜRDAL