Yüksek boyutlu genom verilerinde sıralı örüntülere sahip bağımlı özelliklerin seçimi için S testi uyarlaması
Adaptation of S test for selection of dependent attributes with ordered patterns in high-dimensional genome data
- Tez No: 753684
- Danışmanlar: PROF. DR. BÜLENT ALTUNKAYNAK
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 53
Özet
Yüksek boyutlu verilerde özellik seçimi makine öğrenmesindeki kritik adımlardan biridir. Yüksek boyutlu veriler çok sayıda niteliğe karşın az sayıda gözlem içeren veri yapılarıdır. Özellikle gen verilerine ilişkin çalışmalarda bu tarz verilerle çok sık karşılaşılmaktadır. Son yıllarda makine öğrenmesi tekniklerinin yaygınlaşmasıyla genom çapında ilişkilendirme çalışmaları (GWAS) artış göstermiştir. Bu tarz çalışmalarda tek nükleotid polimorfizm (SNP) düzeyindeki artış ile marker değerlerindeki artış veya azalış örüntüleri tespit edilmeye çalışılır. İstatistikte bu tarz örüntüler Jonckheere-Terpstra (JT), Terpstra-Magel (TM), Ferdhiana-Terpstra-Magel (FTM), KTP, Modified JT ve S testi gibi sıralı alternatif testleriyle incelenir. Ancak, yüksek boyutlu veriler için bu testlerin kullanımı hesaplama zamanı bakımından ekonomik değildir. Bu nedenle, bu testlerin yüksek boyutlu veriler için uyarlanması önem arz etmektedir. Bu çalışmada, aşırı çarpık dağılımlarda ve/veya konveks/konkav alternatif hipotez durumlarında JT testine göre daha iyi sonuçlar veren S istatistiğinin yüksek boyutlu veriler için uyarlanmış algoritması önerilmiştir. Elde edilen sonuçlar S istatistiğinin yüksek boyutlu veriler için daha kullanışlı olduğunu göstermektedir.
Özet (Çeviri)
Feature selection in high-dimensional data is one of the critical steps in machine learning. High-dimensional data are data structures that contain many attributes but few observations. Especially in studies on gene data, such data are frequently encountered. With the widespread use of machine learning techniques in recent years, the number of genome-wide association studies (GWAS) has increased. In such studies, the relationship between the increase in the single-nucleotide polymorphism (SNP) level and the patterns of increase or decrease in the marker values are tried to be determined. In statistics, such patterns are examined with ordered alternative tests such as Jonckheere-Terpstra (JT), Terpstra-Magel (TM), Ferdhiana Terpstra-Magel (FTM), KTP, Modified JT and S test. However, the use of these tests for high-dimensional data is not economical in terms of computation time. Therefore, these tests need to be adapted for high-dimensional data. Lin et al. (2019) proposed the fastJT algorithm for high-dimensional data. On the other hand, power test statistics than JT statistics are available in the literature, especially in extremely skewed distributions and/or convex/concave alternative hypothesis situations (Shan et al., 2014, Altunkaynak & Gamgam, 2020). In this study, an adapted algorithm of S statistics for high-dimensional data is proposed, which gives better results than JT test in extreme skewed distributions and/or convex/concave alternative hypothesis situations. The results show that the S statistic is more useful for high-dimensional data.
Benzer Tezler
- Machine learning approach to quantification of intra-tumour heterogeneity using genomic, epigenomic and proteomic data
Genomik, epigenomik ve proteomik verileri kullanarak tümor içi heterojenite nicelleştirmesine makine öğrenmesi yaklaşımı
ERSİN ONUR ERDOĞAN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGÜR CAN TURNA
- İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi
Variant analysis in human gene networks using surrogate modelling and machine learning
FURKAN AYDIN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
- Phylogeography of the Savi's pipistrelle (Vespertilionidae, chiroptera) complex based on whole mitochondrial genome analysis
Savi'nin cüce yarasası kompleksinin (Vespetilionidae, chiroptera) filocoğrafyasının tüm mitokondriyal genom ile analizi
YELİZ ERGÖL
Yüksek Lisans
İngilizce
2024
Biyolojiİstanbul Teknik Üniversitesiİklim ve Deniz Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRAH ÇORAMAN
- Systems biology of microbial biopolymer production
Mikrobiyal biyopolimer üretiminin sistem biyolojisi
ÖZLEM ATEŞ
Doktora
İngilizce
2013
BiyomühendislikMarmara ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
DOÇ. DR. EBRU TOKSOY ÖNER
- Fasulye (Phaseolus vulgaris L.) bitkisinde trihelix gen ailesi üyelerinin genom düzeyinde tanımlanması ve çeşitli abiyotik stresler sırasında ifade profilleri
Genome-wide identification of Trihelix gene family members in common bean (Phaseolus vulgaris L.) and expression profiles during various abiotic stress
SAMET CAN EKER