Next-generation cell type annotation: Integrating NLP and ML techniques for enhanced scRNA classification
Yeni nesil hücre tipi anotasyonu: Geliştirilmiş scRNA sınıflandırması için NLP ve ML tekniklerinin entegrasyonu
- Tez No: 897390
- Danışmanlar: YRD. DOÇ. DR. AYBAR CAN ACAR, DOÇ. DR. CAN ÖZEN
- Tez Türü: Yüksek Lisans
- Konular: Biyoteknoloji, Biotechnology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoteknoloji Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 136
Özet
Moleküler biyoloji araştırmalarında makine öğreniminin uygulanması, biyomoleküler evreni verimli bir şekilde keşfetmek için esas haline gelmektedir. Araştırmamız, tek hücreli RNA dizileme (scRNA-seq) verilerinde otomatik hücre tipi anotasyonunu optimize eden bir yöntemler dizisi geliştirerek biyoteknoloji alanına katkıda bulunmayı amaçlamaktadır. Tezimizde, doğal dil işleme (NLP) ve makine öğrenimi yöntemlerini birleştiren yeni bir yaklaşım oluşturduk. Yönetimler dizimizin ilk kısmında, gen işaretçilerinin(gene symbol), metin gömülmelerini(text embedding) oluşturmak için BERT, GPT2 ve GPT3 gibi gelişmiş dil modellerinden tokenlaştırıcıları kullanıyoruz. Bunun akabinde otokodlayıcıların (autoencoder), kodçözücü (encoder) kısımlarını kullanarak veri boyutunu düşürüyoruz. Bu veriyi, gen ekspresyon verisiyle birleştirerek makine öğrenmesi metodlarıyla tahmin modelleri üretiyoruz. Yöntemimizi değerlendirmek için İnsan Gen Atlası'ndan PBMC veri setini kullanmaktayız. Sonuçlarımız, oluşturduğumuz yöntemler dizisinin, standart yaklaşımlara kıyasla hücre tipi anotasyon doğruluğunu önemli ölçüde artırdığını göstermektedir. Bu çalışma, biyoteknolojiye yeni bir hesaplama aracı kazandırarak hücresel çeşitlilik ve işlev konusundaki anlayışımızı potansiyel olarak ilerlemektedir.
Özet (Çeviri)
Implementing machine learning in molecular biology research is essential for efficiently exploring the biomolecular cosmos. Our research aims to contribute to biotechnology by developing a methodology that optimizes automated cell-type annotation in single-cell RNA sequencing (scRNA-seq) data. In our thesis, we created a novel approach that combines natural language processing (NLP) and machine learning methods. In the first part of our methodology, we use tokenizers from advanced language models such as BERT, GPT2, and GPT3 to create text embeddings of gene symbols. We then reduce data dimensionality using the encoder parts of autoencoders. We combine this data with gene expression data to produce prediction models using machine learning methods. We use the PBMC dataset from the Human Cell Atlas to evaluate our method. Our results show that our methodology significantly improves cell type annotation accuracy compared to standard approaches. This study potentially advances our understanding of cellular diversity and function by providing a new computational tool for biotechnology.
Benzer Tezler
- Tools and techniques for assessing functional relevance of genomic loci
Genomik lokasyonların fonksiyonel ilgililiklerinin değerlendirilmesi için araçlar ve teknikler
BURÇAK OTLU SARITAŞ
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TOLGA CAN
PROF. DR. SÜNDÜZ KELEŞ
- Frequency synthesizer and mixer design for 5G (26 GHz) communication systems
5G (26 GHz) iletişim sistemleri için frekans sentezleyici ve karıştırıcı tasarımı
MIR HASSAN MAHMUD
Yüksek Lisans
İngilizce
2020
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektronik Ana Bilim Dalı
PROF. DR. YAŞAR GÜRBÜZ
- Kurkumin ve yeni nesil ultrasol kurkuminin nöroblastoma hücre hattı (N1E-115) üzerine etkilerinin karşılaştırmalı olarak incelenmesi
Comparative investigation of the effects of curcumin and new generation ultrasol curcumin on a neuroblastoma cell line (N1E-115)
SONGÜL YENİ
Yüksek Lisans
Türkçe
2022
BiyoteknolojiTrakya ÜniversitesiBiyoteknoloji ve Genetik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET YABAŞ
- Rasopatilerin moleküler etiyopatogenezinin yeni nesil dizileme ile aydınlatılması
Elucidating the molecular etiopathogenesis of rasopathies with next generation sequencing
ESMA NUR KONUR AKBAŞ
Tıpta Uzmanlık
Türkçe
2024
Genetikİstanbul ÜniversitesiTıbbi Genetik Ana Bilim Dalı
DOÇ. DR. AYÇA DİLRUBA ASLANGER
- Mitokondriyal miRNA'ların (mitomiR) Meme Kanseri Hücre Hatlarında Araştırılması
Searching for Mitochondrial miRNA's in Breast Cancer Cell Lines
PERVİN ELVAN TOKGÜN
Doktora
Türkçe
2018
Tıbbi BiyolojiPamukkale ÜniversitesiTıbbi Biyoloji Ana Bilim Dalı
DOÇ. DR. AYŞE GAYE TOMATIR