Genetik varyantların doğal dil işleme yöntemleri ile anotasyonu
Annotation of genetic variants using natural language processing methods
- Tez No: 868890
- Danışmanlar: PROF. DR. ÇİĞDEM EROL, PROF. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Genetik, Computer Engineering and Computer Science and Control, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Enformatik Ana Bilim Dalı
- Bilim Dalı: Enformatik Bilim Dalı
- Sayfa Sayısı: 123
Özet
Bu tez çalışması dahilinde genetik varyantların doğal dil işleme yöntemleri ile anote edilmesine ve bu anotasyon birimleri ile varyantların patojen veya iyi huylu olup olmamasının tespit edilmesine yönelik bir çalışma gerçekleştirilmiştir. Veri setinin oluşturulmasında genetik alanında DNA dizileme çalışmalarını konu alan bilimsel yayınlar kullanılmıştır. Veri seti olan PMC Open Access Subset bilimsel yayınlarına FTP aracılığı ile ulaşılmış ve yayınlar BioC-JSON formatında elde edilmiştir. Bu metinlerden genetik varyantlar düzenli ifadeler (RegEx) ile elde edilmiştir. Böylece ilk aşamada üretilmiş olan yayın tablosu transforme edilerek varyant tablosuna dönüştürülmüştür. Bu tabloda her bir satır bir varyant belirtirken, kolonlar da varyantın içinde geçtiği yayınların metinlerini içermektedir. Varyantların patojen veya iyi huylu olarak etiketlenmesi LitVar ve ClinVarMiner gibi iki araç ve veri tabanı ile gerçekleştirilmiştir. Varyant tablosundaki metinler CountVectorizer yöntemi ile tek cümle, üç cümle ve beş cümle yaklaşımları ile ayrı ayrı vektörleştirilmiştir. Makine öğrenmesi kapsamında XGB, rastgele orman ve lojitsik regresyon algoritmaları kullanılmıştır. Her bir algoritma corpus içerisinde en sık görülen 250, 500, 750 ve 1000 unigram ve bigram tokenler ile çalışılmıştır. Eğitim ve test setleri %73'e %27 olacak şekilde ayırlmıştır. Modeller varyantların patojen veye iyi huylu olup olmadığını test etmiştir. En yüksek doğruluk oranı XGB algoritmasının kullanıldığı, sadece unigram tokenlerin sete dahil edildiği, beş cümle yaklaşımı ile geliştirilem modelde %84,2 olarak elde edilmiştir. Bu modelde patojen sınıfı açısından kesinlik 0.86 iken, hassasiyet 0.84, F1 ölçütü de 0.85 olarak elde edilmiştir.
Özet (Çeviri)
Within the scope of this thesis study, a study was carried out to annotate genetic variants with natural language processing methods and to determine whether the variants are pathogenic or benign with these annotation units. Within the scope of this thesis study, a study was carried out to annotate genetic variants The data set was made up of scientific publications on DNA sequencing studies in the field of genetics. The scientific publications of the PMC Open Access Subset, which constitute the data set, were accessed via FTP, and the publications were obtained in the BioC-JSON format. Using regular expressions, genetic variants from these texts were extracted. A variant table was created from the publication table produced in the first stage. Here, each row indicates a variant, while the columns contain the texts of the publications in which the variant is mentioned. The identification of variants as pathogenic or benign was accomplished using two tools and databases, namely LitVar and ClinVarMiner. The texts in the variant table were vectorized separately using the CountVectorizer method with one-sentence, three-sentence and five-sentence approaches. Within the domain of machine learning, XGB, random forest, and logistic regression algorithms were utilized. Each algorithm was studied with the most common 250, 500, 750 and 1000 unigram and bigram tokens in the corpus. Training and test sets are divided into 73% and 27%. The models underwent testing to determine whether the variants were pathogenic or benign. The highest accuracy rate was obtained at 84.2% in the model developed with the five-sentence approach, in which the XGB algorithm was used and only unigram tokens were included in the set. In this model, the precision in terms of pathogen class was 0.86, the sensitivity was 0.84, and the F1 score was 0.85.
Benzer Tezler
- Major abdominal cerrahi uygulanan hastalarda SIRS gelişmesinde genetik varyantların rolü
Role of genetic variations on development of SIRS in adult patients after major abdominal surgery
BAŞAK AKYOLLU
Tıpta Uzmanlık
Türkçe
2009
Genel CerrahiHacettepe ÜniversitesiGenel Cerrahi Ana Bilim Dalı
PROF. DR. İSKENDER SAYEK
- Türkiye'de yetiştirlen bazı sığır ırklarında yeni nesil sekans analizi ile toll benzeri reseptör (TLR) 2, 4 ve 6 gen bölgelerindeki varyasyonların incelenmesi
Determination of gene variations of toll-like receptor (TRL) 2, 4 and 6 with next generation sequencing in some cattle breeds of Turkey
NÜKET BİLGEN
- Genome-wide discovery of structural variants and their potential role in DMI-propiconazole resistance in Monilinia species
Monilinia türlerinde yapısal varyantların genom çapında keşfi ve DMI-propikonazol direncindeki potansiyel rolü
MUHAMMED RAŞİT DURAK
Yüksek Lisans
İngilizce
2022
BiyolojiÇanakkale Onsekiz Mart ÜniversitesiMoleküler Biyoloji ve Genetik Ana Bilim Dalı
DOÇ. DR. HİLAL ÖZKILINÇ
- Variant pathogenicity prediction tool based on protein-protein interactions and the effects of variants on 3-dimensional protein structure:a model for monogenic autoinflammatory disorders
Protein protein etkileşimlerini ve varyantların 3 boyutlu protein yapısındaki etkilerini esas alan varyant patojenite tahmini
ABDULLAH ALPER BÜLBÜL
Yüksek Lisans
İngilizce
2021
Biyoistatistikİstanbul Teknik ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
PROF. DR. EDA TAHİR TURANLI
- Investigation of novel genes and functional roles in MEFV negative FMF patients through next-generation sequencing
MEFV negatif ailesel Akdeniz ateşi hastalarında yeni nesil dizileme yöntemiyle özgün genlerin ve işlevlerinin araştırılması
MERVE ÖZKILINÇ ÖNEN
Doktora
İngilizce
2023
Genetikİstanbul Teknik ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
PROF. DR. EDA TAHİR TURANLI