Derin öğrenmeye dayalı olarak yeni nesil dizileme verilerinin kümelenmesi

Clustering next generation sequencing data based on deep learning

PDF İndir

Tez No: 715110
Yazar: UĞUR TOPRAK
Danışmanlar: DOÇ. DR. BEYZA DOĞANAY ERDOĞAN
Tez Türü: Doktora
Konular: Biyoistatistik, Biostatistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: Ankara Üniversitesi
Enstitü: Sağlık Bilimleri Enstitüsü
Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 66

Özet

Günümüzde birçok alanda sıklıkla kullanılan kümeleme analizi, verilerin benzerlik, yoğunluk, uzaklıklar veya verinin belirli istatistiksel dağılım ölçülerine dayalı olarak kümeler halinde gruplandırılmasıdır. Özellikle teknolojinin de ilerlemesi ile genetik alanında büyük bir veri birikimi oluşmaya başlamaktadır. Bu verilerin analizinde şimdiye kadar kullanılan yöntemlerin de yetersiz kalmaya başladığı görülmektedir. Son yıllarda derin öğrenme yaklaşımlarının yaygınlaşması ile sağlık alanındaki kullanımı da artış göstermiştir. Derin öğrenme, tıbbi görüntülerin analizi, sağ kalım tahminleri ve biyoinformatik analizler gibi birçok uygulama alanında ilgi çekmektedir. Bu çalışmada Yeni Nesil Dizileme verileri derin öğrenme yaklaşımlarından birisi olan Derin Gömülü Kümeleme ile analiz edilmiş ve sonuçlar klasik makine öğrenmesi yöntemlerinden Kmeans, DBSCAN ve OPTICS ile karşılaştırılmıştır. Bu kapsamda öncelikle ham YND verilerinin işlenerek analize hazır hale getirilmesi için bir Jupyter not defteri oluşturulmuştur. Sonraki aşamada işlenmiş veriler R programlama dili yardımıyla tablo biçimine dönüştürülmüştür. Analiz için Python programlama dili kullanılmıştır. Bu aşamada küçük bir veri seti üzerinde pilot çalışma uygulanmış, sonrasında değişen küme sayılarına göre algoritmaların kümeleme performansı hem üç farklı skorlama yöntemi (Silhouette skoru, Calinski-Harabasz İndeksi ve Davies-Bouldin İndeksi) ile hem de grafiksel olarak incelenmiştir. Ayrıca, makine öğrenmesi yaklaşımlarında kullanılan en yakın iki gözlem arasındaki maksimum uzaklığı ifade eden“eps”parametresinin değişiminin küme sayıları göz önüne alınarak başarıya etkisi araştırılmıştır. Yapılan çalışma sonucunda, YND verileri gibi büyük yapıdaki verilerde makine öğrenmesi algoritmalarının küme sayısı ve farklı parametreler kullanıldığında da kümeleme başarılarının düştüğü gözlemlenmiştir. Derin öğrenmenin ise aksine büyük boyutlu verilerde yüksek başarı gösterdiği ve kullanılan küme sayısının bu başarıyı değiştirmediği kaydedilmiştir.

Özet (Çeviri)

Cluster analysis, which is frequently used in many fields today, is the grouping of data into clusters based on similarity, density, distances or certain statistical distribution measures of the data. Especially with the advancement of technology, a large amount of data is beginning to form in the field of genetics. It is seen that the methods used so far in the analysis of these data have begun to be insufficient. With the widespread use of deep learning approaches in recent years, their use in the field of health has also increased. Deep learning is attracting interest in many application areas such as analysis of medical images, survival predictions and bioinformatics analysis. In this study, Next Generation Sequencing data was analyzed with Deep Embedded Clustering, which is one of the deep learning approaches, and the results were compared with classical machine learning methods Kmeans, DBSCAN and OPTICS. In this context, first of all, a Jupyter notebook was created to process the raw NGS data and make it ready for clustering step. In the next step, the processed data was converted into a table format with the help of the R programming language. Python programming language was used for analysis. At this stage, a pilot study was carried out on a small data set, and then the clustering performance of the algorithms according to the changing number of clusters was examined graphically with three different scoring methods (Silhouette score, Calinski-Harabasz Index and Davies-Bouldin Index). In addition, the change of the“eps”parameter, which expresses the maximum distance between the two closest observations used in machine learning approaches, was investigated by considering the number of clusters. As a result of the study, it was observed that the clustering success of machine learning algorithms decreased when the number of clusters and different parameters were used in large structures such as NGS data. In deep learning, on the contrary, it was noted that it showed high success in large-scale data and the number of clusters we used did not change this success.

Benzer Tezler

Tez No
565884
Yeni nesil DNA dizileme teknolojileri ile hızlı patojen tanıma yapabilen algoritmaların geliştirilmesi
Development of rapid pathogen detection algorithms using next- generation DNA sequenci̇ng
MERYEM ALTIN KARAGÖZ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Erciyes Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZKAN UFUK NALBANTOĞLU
Tez No
737853
Derin öğrenme tabanlı görüntü gürültü giderme için yoğun bağlantı kullanan yeni yaklaşımlar
Densely connected structures in deep learning based image denoising
VEDAT ACAR
Yüksek Lisans
Türkçe
2022
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
Tez No
953277
Havalimanı pistlerinde yabancı madde tespiti için derin öğrenme yaklaşımı
Deep learning approach for foreign object detection on airport runways
NECİP ŞAHAMETTİN KÜÇÜK
Yüksek Lisans
Türkçe
2025
Sivil Havacılık Fırat Üniversitesi
Havacılık Bilimi ve Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖMER OSMAN DURSUN
Tez No
947264
Билим, илим жана маданият тармагындагы Кыргызстан менен Түркиянын кызматташтыгы (1992-2012 жж.)
Kırgız Cumhuriyeti ile Türkiye Cumhuriyeti arasında eğitim, bilim ve kültürel ilişkiler (1992-2012)
KADRİ AĞGÜN
Doktora
Kırgızca
2016
Tarih Kyrgyz State University named after I Arabaev
Tarih Ana Bilim Dalı
PROF. DR. TÖLÖBEK ABDRAHMANOV
Tez No
681048
An autonomous area coverage method for endoscopic capsule robots
Endoskopik kapsül robotlarda otonom alantarama
İBRAHİM ÖMER ÇELİK
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SADIK FİKRET GÜRGEN
DR. MEHMET TURAN

Geri Dön