Geri Dön

Systematic under-sampling of mutation datasets and comparative assessment of protein stability predictors

Mutasyon veri setlerinin sistematik olarak örneklenmesi ve protein kararlılık prediktörlerinin karşılaştırmalı değerlendirmesi

  1. Tez No: 681275
  2. Yazar: NAROD KEBABCI
  3. Danışmanlar: DOÇ. DR. EMEL TİMUÇİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Acıbadem Mehmet Ali Aydınlar Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 128

Özet

Protein katlanmalarını daha iyi anlamak için amino asit değişimlerinin protein stabilitesi üzerine etkisini doğru şekilde tahmin etmek çok önemlidir. Birçok mutagenez çalışması bu konuya katkıda bulunsa da deneysel yöntemler, hesaplamalı yöntemlere kıyasla daha uzun soluklu ve pahalıdırlar. Bu sebeple, geçtiğimiz 20 yılda, yanlış anlamlı mutasyonun sebep olduğu protein stabilitesindeki değişimi hesaplamak için birçok prediktör geliştirilmiştir. Bu yöntemlerin birçok avantajlı özelliği olmasına rağmen modellendikleri eğitim ve test verisindeki düzensizlikler aşırı öğrenme gibi çeşitli problemlerle karşılaşmalarına sebep olmaktadır. Veri setinde, özellikle proteinin stabilizasyonunu azaltan mutasyonların sayıca daha çok olması ve belirli amino asit mutantlarının fazlalığı aşırı öğrenmeye sebep olmaktadır. Bu çalışmada, öncelikle, geliştirdiğimiz örnekleme yöntemi ile 1564 mutasyondan oluşan PON-tstab veri setindeki fazlalıkları azaltmayı hedefledik. İki farklı alfabe kullanarak amino asitleri biyokimyasal ve ikincil yapı özelliklerine göre yeniden grupladık. Oluşturduğumuz veri setleri ile mutant amino asit tiplerinin daha eşit dağılmasını sağladık. Daha sonra, proteinin kararlılığını tahmin eden 11 farklı prediktörün performansını, PON-tstab ve oluşturduğumuz indirgenmiş veri setleri üzerine test ettik. İndirgenmiş veri setlerinin orijinal veri setine kıyasla daha iyi performans gösterdiğini kaydettik. Özetle, bu çalışma ile aşırı öğrenmeyi engellemek ve prediktörleri doğru bir şekilde test etmek için kaliteli veri setleri oluşturmanın önemini vurguladık. (Yöntem GitHub'da mevcuttur: https://github.com/narodkebabci/gRoR)

Özet (Çeviri)

Predicting how an amino acid substitution affects protein stability is an important task, refining our understanding of protein folding. Although mutagenesis studies performed either in a wet- or a dry-lab contribute to this knowledge, computational methods stand out as more economical and less time-consuming. Thus, numerous computational methods have been developed in the last decade to predict the change in folding free energy upon mutation (ΔΔG). Alongside their advantageous features, computational ΔΔG predictors still suffer from certain limitations, such as overfitting. Overfitting of ΔΔG predictors, i.e., the tendency to produce biased results toward their training sets, becomes a critical issue for developing accurate predictors. Indeed, the existing biases in mutation datasets, such as redundancy of destabilizing mutations and/or certain amino acids, are recognized as a primary source of overfitting. In this study, we developed a systematic under-sampling methodology to eliminate redundancies in the mutation datasets. PON-tstab, composed of 1564 mutations, was used as the toy dataset. We used two different reduced alphabets to group the mutant amino acids based on their sidechain biochemistry and secondary structure. This reduced set led to a more uniform sampling of each amino acid and of destabilizing-stabilizing mutations. We ultimately tested the performances of 11 different ΔΔG predictors on the entire PON-tstab and the constructed subset. We note slight differences in performances of almost every predictor, reflecting the influence of redundancy elimination. Overall, we underline the importance of producing high-quality mutation datasets for tackling overfitting issues and a reliable assessment of ΔΔG predictors. (The code is available on GitHub: https://github.com/narodkebabci/gRoR)

Benzer Tezler

  1. Biyokimya laboratuvarında alkalen fosfataz düşüklüğü tespit edilen hastaların hipofosfatazya açısından incelenmesi

    Patients with low alkaline phosphatase activities in biochemstry laboratory research for hypophosphatasia

    RANA BAYRAMLI

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2016

    Endokrinoloji ve Metabolizma HastalıklarıMarmara Üniversitesi

    Çocuk Sağlığı ve Hastalıkları Ana Bilim Dalı

    PROF. DR. SERAP TURAN

  2. İlköğretim 6. sınıf sosyal bilgiler derslerinde karşılaşılan sorunlara ilişkin öğretmen görüşleri (Ankara ili örneği)

    Opinions of teachers regardingproblemsencountered in social studies courses in the six grade (Ankara provincial sample)

    İBRAHİM YAVUZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Eğitim ve ÖğretimGazi Üniversitesi

    İlköğretim Bölümü

    DOÇ. DR. CENGİZ DÖNMEZ

  3. Sabit yataklı yakma sistemlerinde yanmada kömür neminin emisyonlara etkisinin deneysel incelenmesi

    Experimental investigations of effect of moisture on the emissions in fixed bed compustion appliances

    NALAN ERDÖL AYDIN

    Doktora

    Türkçe

    Türkçe

    2001

    Kimya Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. HASANCAN OKUTAN

  4. Enfeksiyöz Bursal Hastalık (IBD; Gumboro Hastalığı) virusu ile enfekte edilmiş hindi embriyolarında makroskobik ve mikroskobik değişimler

    Macroscopic and microscopic changes in turkey embryos infected with Infectious Bursal Disease (IBD; Gumboro Disease) virus

    ENVER BEYTUT

    Doktora

    Türkçe

    Türkçe

    1995

    Veteriner HekimliğiFırat Üniversitesi

    PROF.DR. NURSAL METİN

  5. Gray-Box combinatorial interaction testing

    Gri-Kutu kombinatoryal etkileşim testi

    ARSALAN JAVEED

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CEMAL YILMAZ