Geri Dön

Next-generation cell type annotation: Integrating NLP and ML techniques for enhanced scRNA classification

Yeni nesil hücre tipi anotasyonu: Geliştirilmiş scRNA sınıflandırması için NLP ve ML tekniklerinin entegrasyonu

  1. Tez No: 897390
  2. Yazar: ORÇUN SAMİ TANDOĞAN
  3. Danışmanlar: YRD. DOÇ. DR. AYBAR CAN ACAR, DOÇ. DR. CAN ÖZEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoteknoloji, Biotechnology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoteknoloji Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 136

Özet

Moleküler biyoloji araştırmalarında makine öğreniminin uygulanması, biyomoleküler evreni verimli bir şekilde keşfetmek için esas haline gelmektedir. Araştırmamız, tek hücreli RNA dizileme (scRNA-seq) verilerinde otomatik hücre tipi anotasyonunu optimize eden bir yöntemler dizisi geliştirerek biyoteknoloji alanına katkıda bulunmayı amaçlamaktadır. Tezimizde, doğal dil işleme (NLP) ve makine öğrenimi yöntemlerini birleştiren yeni bir yaklaşım oluşturduk. Yönetimler dizimizin ilk kısmında, gen işaretçilerinin(gene symbol), metin gömülmelerini(text embedding) oluşturmak için BERT, GPT2 ve GPT3 gibi gelişmiş dil modellerinden tokenlaştırıcıları kullanıyoruz. Bunun akabinde otokodlayıcıların (autoencoder), kodçözücü (encoder) kısımlarını kullanarak veri boyutunu düşürüyoruz. Bu veriyi, gen ekspresyon verisiyle birleştirerek makine öğrenmesi metodlarıyla tahmin modelleri üretiyoruz. Yöntemimizi değerlendirmek için İnsan Gen Atlası'ndan PBMC veri setini kullanmaktayız. Sonuçlarımız, oluşturduğumuz yöntemler dizisinin, standart yaklaşımlara kıyasla hücre tipi anotasyon doğruluğunu önemli ölçüde artırdığını göstermektedir. Bu çalışma, biyoteknolojiye yeni bir hesaplama aracı kazandırarak hücresel çeşitlilik ve işlev konusundaki anlayışımızı potansiyel olarak ilerlemektedir.

Özet (Çeviri)

Implementing machine learning in molecular biology research is essential for efficiently exploring the biomolecular cosmos. Our research aims to contribute to biotechnology by developing a methodology that optimizes automated cell-type annotation in single-cell RNA sequencing (scRNA-seq) data. In our thesis, we created a novel approach that combines natural language processing (NLP) and machine learning methods. In the first part of our methodology, we use tokenizers from advanced language models such as BERT, GPT2, and GPT3 to create text embeddings of gene symbols. We then reduce data dimensionality using the encoder parts of autoencoders. We combine this data with gene expression data to produce prediction models using machine learning methods. We use the PBMC dataset from the Human Cell Atlas to evaluate our method. Our results show that our methodology significantly improves cell type annotation accuracy compared to standard approaches. This study potentially advances our understanding of cellular diversity and function by providing a new computational tool for biotechnology.

Benzer Tezler

  1. Tools and techniques for assessing functional relevance of genomic loci

    Genomik lokasyonların fonksiyonel ilgililiklerinin değerlendirilmesi için araçlar ve teknikler

    BURÇAK OTLU SARITAŞ

    Doktora

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TOLGA CAN

    PROF. DR. SÜNDÜZ KELEŞ

  2. Frequency synthesizer and mixer design for 5G (26 GHz) communication systems

    5G (26 GHz) iletişim sistemleri için frekans sentezleyici ve karıştırıcı tasarımı

    MIR HASSAN MAHMUD

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiSabancı Üniversitesi

    Elektronik Ana Bilim Dalı

    PROF. DR. YAŞAR GÜRBÜZ

  3. Kurkumin ve yeni nesil ultrasol kurkuminin nöroblastoma hücre hattı (N1E-115) üzerine etkilerinin karşılaştırmalı olarak incelenmesi

    Comparative investigation of the effects of curcumin and new generation ultrasol curcumin on a neuroblastoma cell line (N1E-115)

    SONGÜL YENİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    BiyoteknolojiTrakya Üniversitesi

    Biyoteknoloji ve Genetik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET YABAŞ

  4. Rasopatilerin moleküler etiyopatogenezinin yeni nesil dizileme ile aydınlatılması

    Elucidating the molecular etiopathogenesis of rasopathies with next generation sequencing

    ESMA NUR KONUR AKBAŞ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    Genetikİstanbul Üniversitesi

    Tıbbi Genetik Ana Bilim Dalı

    DOÇ. DR. AYÇA DİLRUBA ASLANGER

  5. Mitokondriyal miRNA'ların (mitomiR) Meme Kanseri Hücre Hatlarında Araştırılması

    Searching for Mitochondrial miRNA's in Breast Cancer Cell Lines

    PERVİN ELVAN TOKGÜN

    Doktora

    Türkçe

    Türkçe

    2018

    Tıbbi BiyolojiPamukkale Üniversitesi

    Tıbbi Biyoloji Ana Bilim Dalı

    DOÇ. DR. AYŞE GAYE TOMATIR