Systematic under-sampling of mutation datasets and comparative assessment of protein stability predictors
Mutasyon veri setlerinin sistematik olarak örneklenmesi ve protein kararlılık prediktörlerinin karşılaştırmalı değerlendirmesi
- Tez No: 681275
- Danışmanlar: DOÇ. DR. EMEL TİMUÇİN
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Acıbadem Mehmet Ali Aydınlar Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 128
Özet
Protein katlanmalarını daha iyi anlamak için amino asit değişimlerinin protein stabilitesi üzerine etkisini doğru şekilde tahmin etmek çok önemlidir. Birçok mutagenez çalışması bu konuya katkıda bulunsa da deneysel yöntemler, hesaplamalı yöntemlere kıyasla daha uzun soluklu ve pahalıdırlar. Bu sebeple, geçtiğimiz 20 yılda, yanlış anlamlı mutasyonun sebep olduğu protein stabilitesindeki değişimi hesaplamak için birçok prediktör geliştirilmiştir. Bu yöntemlerin birçok avantajlı özelliği olmasına rağmen modellendikleri eğitim ve test verisindeki düzensizlikler aşırı öğrenme gibi çeşitli problemlerle karşılaşmalarına sebep olmaktadır. Veri setinde, özellikle proteinin stabilizasyonunu azaltan mutasyonların sayıca daha çok olması ve belirli amino asit mutantlarının fazlalığı aşırı öğrenmeye sebep olmaktadır. Bu çalışmada, öncelikle, geliştirdiğimiz örnekleme yöntemi ile 1564 mutasyondan oluşan PON-tstab veri setindeki fazlalıkları azaltmayı hedefledik. İki farklı alfabe kullanarak amino asitleri biyokimyasal ve ikincil yapı özelliklerine göre yeniden grupladık. Oluşturduğumuz veri setleri ile mutant amino asit tiplerinin daha eşit dağılmasını sağladık. Daha sonra, proteinin kararlılığını tahmin eden 11 farklı prediktörün performansını, PON-tstab ve oluşturduğumuz indirgenmiş veri setleri üzerine test ettik. İndirgenmiş veri setlerinin orijinal veri setine kıyasla daha iyi performans gösterdiğini kaydettik. Özetle, bu çalışma ile aşırı öğrenmeyi engellemek ve prediktörleri doğru bir şekilde test etmek için kaliteli veri setleri oluşturmanın önemini vurguladık. (Yöntem GitHub'da mevcuttur: https://github.com/narodkebabci/gRoR)
Özet (Çeviri)
Predicting how an amino acid substitution affects protein stability is an important task, refining our understanding of protein folding. Although mutagenesis studies performed either in a wet- or a dry-lab contribute to this knowledge, computational methods stand out as more economical and less time-consuming. Thus, numerous computational methods have been developed in the last decade to predict the change in folding free energy upon mutation (ΔΔG). Alongside their advantageous features, computational ΔΔG predictors still suffer from certain limitations, such as overfitting. Overfitting of ΔΔG predictors, i.e., the tendency to produce biased results toward their training sets, becomes a critical issue for developing accurate predictors. Indeed, the existing biases in mutation datasets, such as redundancy of destabilizing mutations and/or certain amino acids, are recognized as a primary source of overfitting. In this study, we developed a systematic under-sampling methodology to eliminate redundancies in the mutation datasets. PON-tstab, composed of 1564 mutations, was used as the toy dataset. We used two different reduced alphabets to group the mutant amino acids based on their sidechain biochemistry and secondary structure. This reduced set led to a more uniform sampling of each amino acid and of destabilizing-stabilizing mutations. We ultimately tested the performances of 11 different ΔΔG predictors on the entire PON-tstab and the constructed subset. We note slight differences in performances of almost every predictor, reflecting the influence of redundancy elimination. Overall, we underline the importance of producing high-quality mutation datasets for tackling overfitting issues and a reliable assessment of ΔΔG predictors. (The code is available on GitHub: https://github.com/narodkebabci/gRoR)
Benzer Tezler
- Biyokimya laboratuvarında alkalen fosfataz düşüklüğü tespit edilen hastaların hipofosfatazya açısından incelenmesi
Patients with low alkaline phosphatase activities in biochemstry laboratory research for hypophosphatasia
RANA BAYRAMLI
Tıpta Uzmanlık
Türkçe
2016
Endokrinoloji ve Metabolizma HastalıklarıMarmara ÜniversitesiÇocuk Sağlığı ve Hastalıkları Ana Bilim Dalı
PROF. DR. SERAP TURAN
- İlköğretim 6. sınıf sosyal bilgiler derslerinde karşılaşılan sorunlara ilişkin öğretmen görüşleri (Ankara ili örneği)
Opinions of teachers regardingproblemsencountered in social studies courses in the six grade (Ankara provincial sample)
İBRAHİM YAVUZ
- Sabit yataklı yakma sistemlerinde yanmada kömür neminin emisyonlara etkisinin deneysel incelenmesi
Experimental investigations of effect of moisture on the emissions in fixed bed compustion appliances
NALAN ERDÖL AYDIN
- Enfeksiyöz Bursal Hastalık (IBD; Gumboro Hastalığı) virusu ile enfekte edilmiş hindi embriyolarında makroskobik ve mikroskobik değişimler
Macroscopic and microscopic changes in turkey embryos infected with Infectious Bursal Disease (IBD; Gumboro Disease) virus
ENVER BEYTUT
- Gray-Box combinatorial interaction testing
Gri-Kutu kombinatoryal etkileşim testi
ARSALAN JAVEED
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. CEMAL YILMAZ