Geri Dön

Yüksek boyutlu genom verilerinde sıralı örüntülere sahip bağımlı özelliklerin seçimi için S testi uyarlaması

Adaptation of S test for selection of dependent attributes with ordered patterns in high-dimensional genome data

  1. Tez No: 753684
  2. Yazar: DENİZ CEBELİ
  3. Danışmanlar: PROF. DR. BÜLENT ALTUNKAYNAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 53

Özet

Yüksek boyutlu verilerde özellik seçimi makine öğrenmesindeki kritik adımlardan biridir. Yüksek boyutlu veriler çok sayıda niteliğe karşın az sayıda gözlem içeren veri yapılarıdır. Özellikle gen verilerine ilişkin çalışmalarda bu tarz verilerle çok sık karşılaşılmaktadır. Son yıllarda makine öğrenmesi tekniklerinin yaygınlaşmasıyla genom çapında ilişkilendirme çalışmaları (GWAS) artış göstermiştir. Bu tarz çalışmalarda tek nükleotid polimorfizm (SNP) düzeyindeki artış ile marker değerlerindeki artış veya azalış örüntüleri tespit edilmeye çalışılır. İstatistikte bu tarz örüntüler Jonckheere-Terpstra (JT), Terpstra-Magel (TM), Ferdhiana-Terpstra-Magel (FTM), KTP, Modified JT ve S testi gibi sıralı alternatif testleriyle incelenir. Ancak, yüksek boyutlu veriler için bu testlerin kullanımı hesaplama zamanı bakımından ekonomik değildir. Bu nedenle, bu testlerin yüksek boyutlu veriler için uyarlanması önem arz etmektedir. Bu çalışmada, aşırı çarpık dağılımlarda ve/veya konveks/konkav alternatif hipotez durumlarında JT testine göre daha iyi sonuçlar veren S istatistiğinin yüksek boyutlu veriler için uyarlanmış algoritması önerilmiştir. Elde edilen sonuçlar S istatistiğinin yüksek boyutlu veriler için daha kullanışlı olduğunu göstermektedir.

Özet (Çeviri)

Feature selection in high-dimensional data is one of the critical steps in machine learning. High-dimensional data are data structures that contain many attributes but few observations. Especially in studies on gene data, such data are frequently encountered. With the widespread use of machine learning techniques in recent years, the number of genome-wide association studies (GWAS) has increased. In such studies, the relationship between the increase in the single-nucleotide polymorphism (SNP) level and the patterns of increase or decrease in the marker values are tried to be determined. In statistics, such patterns are examined with ordered alternative tests such as Jonckheere-Terpstra (JT), Terpstra-Magel (TM), Ferdhiana Terpstra-Magel (FTM), KTP, Modified JT and S test. However, the use of these tests for high-dimensional data is not economical in terms of computation time. Therefore, these tests need to be adapted for high-dimensional data. Lin et al. (2019) proposed the fastJT algorithm for high-dimensional data. On the other hand, power test statistics than JT statistics are available in the literature, especially in extremely skewed distributions and/or convex/concave alternative hypothesis situations (Shan et al., 2014, Altunkaynak & Gamgam, 2020). In this study, an adapted algorithm of S statistics for high-dimensional data is proposed, which gives better results than JT test in extreme skewed distributions and/or convex/concave alternative hypothesis situations. The results show that the S statistic is more useful for high-dimensional data.

Benzer Tezler

  1. Machine learning approach to quantification of intra-tumour heterogeneity using genomic, epigenomic and proteomic data

    Genomik, epigenomik ve proteomik verileri kullanarak tümor içi heterojenite nicelleştirmesine makine öğrenmesi yaklaşımı

    ERSİN ONUR ERDOĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGÜR CAN TURNA

  2. İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi

    Variant analysis in human gene networks using surrogate modelling and machine learning

    FURKAN AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  3. Phylogeography of the Savi's pipistrelle (Vespertilionidae, chiroptera) complex based on whole mitochondrial genome analysis

    Savi'nin cüce yarasası kompleksinin (Vespetilionidae, chiroptera) filocoğrafyasının tüm mitokondriyal genom ile analizi

    YELİZ ERGÖL

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Biyolojiİstanbul Teknik Üniversitesi

    İklim ve Deniz Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRAH ÇORAMAN

  4. Systems biology of microbial biopolymer production

    Mikrobiyal biyopolimer üretiminin sistem biyolojisi

    ÖZLEM ATEŞ

    Doktora

    İngilizce

    İngilizce

    2013

    BiyomühendislikMarmara Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EBRU TOKSOY ÖNER

  5. Fasulye (Phaseolus vulgaris L.) bitkisinde trihelix gen ailesi üyelerinin genom düzeyinde tanımlanması ve çeşitli abiyotik stresler sırasında ifade profilleri

    Genome-wide identification of Trihelix gene family members in common bean (Phaseolus vulgaris L.) and expression profiles during various abiotic stress

    SAMET CAN EKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    BiyolojiAnkara Üniversitesi

    Biyoloji Ana Bilim Dalı

    DOÇ. DR. İLKER BÜYÜK