Geri Dön

Genetik varyantların doğal dil işleme yöntemleri ile anotasyonu

Annotation of genetic variants using natural language processing methods

  1. Tez No: 868890
  2. Yazar: ORÇUN TAŞAR
  3. Danışmanlar: PROF. DR. ÇİĞDEM EROL, PROF. DR. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Genetik, Computer Engineering and Computer Science and Control, Genetics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Enformatik Ana Bilim Dalı
  12. Bilim Dalı: Enformatik Bilim Dalı
  13. Sayfa Sayısı: 123

Özet

Bu tez çalışması dahilinde genetik varyantların doğal dil işleme yöntemleri ile anote edilmesine ve bu anotasyon birimleri ile varyantların patojen veya iyi huylu olup olmamasının tespit edilmesine yönelik bir çalışma gerçekleştirilmiştir. Veri setinin oluşturulmasında genetik alanında DNA dizileme çalışmalarını konu alan bilimsel yayınlar kullanılmıştır. Veri seti olan PMC Open Access Subset bilimsel yayınlarına FTP aracılığı ile ulaşılmış ve yayınlar BioC-JSON formatında elde edilmiştir. Bu metinlerden genetik varyantlar düzenli ifadeler (RegEx) ile elde edilmiştir. Böylece ilk aşamada üretilmiş olan yayın tablosu transforme edilerek varyant tablosuna dönüştürülmüştür. Bu tabloda her bir satır bir varyant belirtirken, kolonlar da varyantın içinde geçtiği yayınların metinlerini içermektedir. Varyantların patojen veya iyi huylu olarak etiketlenmesi LitVar ve ClinVarMiner gibi iki araç ve veri tabanı ile gerçekleştirilmiştir. Varyant tablosundaki metinler CountVectorizer yöntemi ile tek cümle, üç cümle ve beş cümle yaklaşımları ile ayrı ayrı vektörleştirilmiştir. Makine öğrenmesi kapsamında XGB, rastgele orman ve lojitsik regresyon algoritmaları kullanılmıştır. Her bir algoritma corpus içerisinde en sık görülen 250, 500, 750 ve 1000 unigram ve bigram tokenler ile çalışılmıştır. Eğitim ve test setleri %73'e %27 olacak şekilde ayırlmıştır. Modeller varyantların patojen veye iyi huylu olup olmadığını test etmiştir. En yüksek doğruluk oranı XGB algoritmasının kullanıldığı, sadece unigram tokenlerin sete dahil edildiği, beş cümle yaklaşımı ile geliştirilem modelde %84,2 olarak elde edilmiştir. Bu modelde patojen sınıfı açısından kesinlik 0.86 iken, hassasiyet 0.84, F1 ölçütü de 0.85 olarak elde edilmiştir.

Özet (Çeviri)

Within the scope of this thesis study, a study was carried out to annotate genetic variants with natural language processing methods and to determine whether the variants are pathogenic or benign with these annotation units. Within the scope of this thesis study, a study was carried out to annotate genetic variants The data set was made up of scientific publications on DNA sequencing studies in the field of genetics. The scientific publications of the PMC Open Access Subset, which constitute the data set, were accessed via FTP, and the publications were obtained in the BioC-JSON format. Using regular expressions, genetic variants from these texts were extracted. A variant table was created from the publication table produced in the first stage. Here, each row indicates a variant, while the columns contain the texts of the publications in which the variant is mentioned. The identification of variants as pathogenic or benign was accomplished using two tools and databases, namely LitVar and ClinVarMiner. The texts in the variant table were vectorized separately using the CountVectorizer method with one-sentence, three-sentence and five-sentence approaches. Within the domain of machine learning, XGB, random forest, and logistic regression algorithms were utilized. Each algorithm was studied with the most common 250, 500, 750 and 1000 unigram and bigram tokens in the corpus. Training and test sets are divided into 73% and 27%. The models underwent testing to determine whether the variants were pathogenic or benign. The highest accuracy rate was obtained at 84.2% in the model developed with the five-sentence approach, in which the XGB algorithm was used and only unigram tokens were included in the set. In this model, the precision in terms of pathogen class was 0.86, the sensitivity was 0.84, and the F1 score was 0.85.

Benzer Tezler

  1. Major abdominal cerrahi uygulanan hastalarda SIRS gelişmesinde genetik varyantların rolü

    Role of genetic variations on development of SIRS in adult patients after major abdominal surgery

    BAŞAK AKYOLLU

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2009

    Genel CerrahiHacettepe Üniversitesi

    Genel Cerrahi Ana Bilim Dalı

    PROF. DR. İSKENDER SAYEK

  2. Türkiye'de yetiştirlen bazı sığır ırklarında yeni nesil sekans analizi ile toll benzeri reseptör (TLR) 2, 4 ve 6 gen bölgelerindeki varyasyonların incelenmesi

    Determination of gene variations of toll-like receptor (TRL) 2, 4 and 6 with next generation sequencing in some cattle breeds of Turkey

    NÜKET BİLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    GenetikAnkara Üniversitesi

    Genetik Ana Bilim Dalı

    PROF. DR. OKAN ERTUĞRUL

  3. Genome-wide discovery of structural variants and their potential role in DMI-propiconazole resistance in Monilinia species

    Monilinia türlerinde yapısal varyantların genom çapında keşfi ve DMI-propikonazol direncindeki potansiyel rolü

    MUHAMMED RAŞİT DURAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    BiyolojiÇanakkale Onsekiz Mart Üniversitesi

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    DOÇ. DR. HİLAL ÖZKILINÇ

  4. Variant pathogenicity prediction tool based on protein-protein interactions and the effects of variants on 3-dimensional protein structure:a model for monogenic autoinflammatory disorders

    Protein protein etkileşimlerini ve varyantların 3 boyutlu protein yapısındaki etkilerini esas alan varyant patojenite tahmini

    ABDULLAH ALPER BÜLBÜL

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Biyoistatistikİstanbul Teknik Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı

    PROF. DR. EDA TAHİR TURANLI

  5. Investigation of novel genes and functional roles in MEFV negative FMF patients through next-generation sequencing

    MEFV negatif ailesel Akdeniz ateşi hastalarında yeni nesil dizileme yöntemiyle özgün genlerin ve işlevlerinin araştırılması

    MERVE ÖZKILINÇ ÖNEN

    Doktora

    İngilizce

    İngilizce

    2023

    Genetikİstanbul Teknik Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı

    PROF. DR. EDA TAHİR TURANLI