Geri Dön

Machine learning based language models on nucleotide sequences of human genes

İnsan genleri nükleotit dizilerinin makine öğrenmesi ile modellenmesi

  1. Tez No: 831775
  2. Yazar: MUSA NURİ İHTİYAR
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 63

Özet

Bilgisayarların kullanımı bilimin değişik alanlarındaki birçok çalışmada çeşitli faydalar sağlamıştır. Bilgisayarların hızındaki ve elimizdeki verinin miktarındaki artış dikkate alındığında bu durumun daha da yaygınlaşacağı beklentisi kuvvet kazanmaktadır. Bu çalışma bilgisayarları bilimin en ilginç alanlarından birisi olan Genetik'te kullanmak üzerinedir. İnsan genlerini oluşturan nükleotit dizilerindeki yapıyı modellemek için birçok farklı tekniğin kullanıldığı bu çalışmada elde edilen modeller görülmemiş bir nükleotit dizisinin bir insan genine ait olup olmadığını tahmin edebilme özelliğini sahiptir. Ayrıca yeni nükleotit serilerini üretme görevini de yerine getirebilmektedirler. Kullanılan tüm metodlar Makine Öğrenmesi isimli bir yaklaşım tabanlı olup hedef bilgisayara her aşamada ne yapması gerektiğini tek tek izah etmek yerine veriyi kullanarak öğrenmesini sağlamak şeklinde açıklanabilir. Eskiden beri kullanılan N-gram tarzı tekniklerin yanında son zamanlarda çok popüler hale gelen Derin Öğrenme tabanlı Recurrent Neural Networks ve Transformer dil modellerinden de faydalanılmıştır. Geliştirilen sistemler klasik başarı ölçütlerinin yanında gerçek hayata daha yakın olan ve Genetik ile alakalı bazı görevlerdeki başarıları ile de değerlendirilmiştir. Sonuçlar Doğal Dil ile bazı farkları barındıran bir problemde farklı tekniklerin kıyaslanması adına ilginçtir. Ayrıca N-gram tarzı basit modellerin bazı problemleri çözmede Transformer gibi karmaşık modellerden daha iyi olmalarının mümkün olduğu görülmüş olmuştur. Son olarak modelleri ölçerken gerçek görevlerde testin çok mühim olduğu öğrenilmiştir çünkü transformer modeli perplexity dikkate alındığında N-gram'dan daha iyi iken gerçek testte daha kötü sonuç vermiştir.

Özet (Çeviri)

The use of computers for different fields of science has provided tremendous benefits. This phenomenon is expected to be more common as the speed of computers and the amount of data available for different kinds of scientific problems increase. This study focuses on genomics, one of the most exciting areas of science. We have applied several techniques to obtain a model for nucleotide sequences of genes that are found in human beings so that the model can learn the general pattern in these nucleotide sequences and predict how likely it is that an unseen sequence is a gene that belongs to human beings. They can even generate new nucleotide sequences. All of the methods used are examples of machine learning, where the programs are designed to learn from data for a specific task, rather than explicitly programming what to do at each step. Traditional approaches such as N-grams and more recent deep learning-based techniques such as recurrent neural networks and transformer architecture language models are used. In addition to the classical metrics, the strength of the methods is measured using a real-world task from the field of genomics. Finally, the results show an interesting comparison of how all these models perform on a task that is inherently different from classical natural language processing tasks, and how sometimes simple models like N-grams can be as good as, if not better than, more sophisticated techniques such as transformer for solving certain types of problems. Furthermore, the significance of evaluating obtained models on real-life tasks is seen because the transformer model was superior to the N-gram model according to perplexity, although it performed worse on real-world task.

Benzer Tezler

  1. SNP markırlarının burun morfolojisi ile ilgili özelliklerinin modellenmesi

    Modelling of SNP markers' features related to nose morphology

    ULVIYYA MUSTAFAYEVA

    Doktora

    Türkçe

    Türkçe

    2024

    Adli Tıpİstanbul Üniversitesi-Cerrahpaşa

    Fen Bilimleri Ana Bilim Dalı

    DOÇ. DR. GÖNÜL FİLOĞLU TÜFEK

  2. An ontology based approach for question answering systems that using machine learning

    Makine öğrenmesi kullanan soru cevaplama sistemleri için ontoloji tabanlı bir yaklaşım

    ZEKERİYA ANIL GÜVEN

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT OSMAN ÜNALIR

  3. Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers

    Derin protein dil modellerini transformatörlerle birleştirerek rna ve protein modifikasyonlarini tahmin etmek ve analiz etmek

    NECLA NİSA SOYLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE SEFER

  4. Implementing language models enriched with text analysis: MIMIC-CXR case study

    Metin analiziyle zenginleştirilmiş dil modellerini uygulama: MIMIC-CXR vaka çalışması

    EGE ERBERK USLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMİNE SEZER

    DR. ÖĞR. ÜYESİ ZEKERİYA ANIL GÜVEN

  5. Financial named entity recognition for turkish news texts

    Türkçe haber metinlerinde finansal varlık ismi tanıma

    DUYGU DİNÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ HİKMET DOĞRU

    PROF. DR. PINAR KARAGÖZ