Derin öğrenmeye dayalı olarak yeni nesil dizileme verilerinin kümelenmesi
Clustering next generation sequencing data based on deep learning
- Tez No: 715110
- Danışmanlar: DOÇ. DR. BEYZA DOĞANAY ERDOĞAN
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Ankara Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 66
Özet
Günümüzde birçok alanda sıklıkla kullanılan kümeleme analizi, verilerin benzerlik, yoğunluk, uzaklıklar veya verinin belirli istatistiksel dağılım ölçülerine dayalı olarak kümeler halinde gruplandırılmasıdır. Özellikle teknolojinin de ilerlemesi ile genetik alanında büyük bir veri birikimi oluşmaya başlamaktadır. Bu verilerin analizinde şimdiye kadar kullanılan yöntemlerin de yetersiz kalmaya başladığı görülmektedir. Son yıllarda derin öğrenme yaklaşımlarının yaygınlaşması ile sağlık alanındaki kullanımı da artış göstermiştir. Derin öğrenme, tıbbi görüntülerin analizi, sağ kalım tahminleri ve biyoinformatik analizler gibi birçok uygulama alanında ilgi çekmektedir. Bu çalışmada Yeni Nesil Dizileme verileri derin öğrenme yaklaşımlarından birisi olan Derin Gömülü Kümeleme ile analiz edilmiş ve sonuçlar klasik makine öğrenmesi yöntemlerinden Kmeans, DBSCAN ve OPTICS ile karşılaştırılmıştır. Bu kapsamda öncelikle ham YND verilerinin işlenerek analize hazır hale getirilmesi için bir Jupyter not defteri oluşturulmuştur. Sonraki aşamada işlenmiş veriler R programlama dili yardımıyla tablo biçimine dönüştürülmüştür. Analiz için Python programlama dili kullanılmıştır. Bu aşamada küçük bir veri seti üzerinde pilot çalışma uygulanmış, sonrasında değişen küme sayılarına göre algoritmaların kümeleme performansı hem üç farklı skorlama yöntemi (Silhouette skoru, Calinski-Harabasz İndeksi ve Davies-Bouldin İndeksi) ile hem de grafiksel olarak incelenmiştir. Ayrıca, makine öğrenmesi yaklaşımlarında kullanılan en yakın iki gözlem arasındaki maksimum uzaklığı ifade eden“eps”parametresinin değişiminin küme sayıları göz önüne alınarak başarıya etkisi araştırılmıştır. Yapılan çalışma sonucunda, YND verileri gibi büyük yapıdaki verilerde makine öğrenmesi algoritmalarının küme sayısı ve farklı parametreler kullanıldığında da kümeleme başarılarının düştüğü gözlemlenmiştir. Derin öğrenmenin ise aksine büyük boyutlu verilerde yüksek başarı gösterdiği ve kullanılan küme sayısının bu başarıyı değiştirmediği kaydedilmiştir.
Özet (Çeviri)
Cluster analysis, which is frequently used in many fields today, is the grouping of data into clusters based on similarity, density, distances or certain statistical distribution measures of the data. Especially with the advancement of technology, a large amount of data is beginning to form in the field of genetics. It is seen that the methods used so far in the analysis of these data have begun to be insufficient. With the widespread use of deep learning approaches in recent years, their use in the field of health has also increased. Deep learning is attracting interest in many application areas such as analysis of medical images, survival predictions and bioinformatics analysis. In this study, Next Generation Sequencing data was analyzed with Deep Embedded Clustering, which is one of the deep learning approaches, and the results were compared with classical machine learning methods Kmeans, DBSCAN and OPTICS. In this context, first of all, a Jupyter notebook was created to process the raw NGS data and make it ready for clustering step. In the next step, the processed data was converted into a table format with the help of the R programming language. Python programming language was used for analysis. At this stage, a pilot study was carried out on a small data set, and then the clustering performance of the algorithms according to the changing number of clusters was examined graphically with three different scoring methods (Silhouette score, Calinski-Harabasz Index and Davies-Bouldin Index). In addition, the change of the“eps”parameter, which expresses the maximum distance between the two closest observations used in machine learning approaches, was investigated by considering the number of clusters. As a result of the study, it was observed that the clustering success of machine learning algorithms decreased when the number of clusters and different parameters were used in large structures such as NGS data. In deep learning, on the contrary, it was noted that it showed high success in large-scale data and the number of clusters we used did not change this success.
Benzer Tezler
- Yeni nesil DNA dizileme teknolojileri ile hızlı patojen tanıma yapabilen algoritmaların geliştirilmesi
Development of rapid pathogen detection algorithms using next- generation DNA sequenci̇ng
MERYEM ALTIN KARAGÖZ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZKAN UFUK NALBANTOĞLU
- Derin öğrenme tabanlı görüntü gürültü giderme için yoğun bağlantı kullanan yeni yaklaşımlar
Densely connected structures in deep learning based image denoising
VEDAT ACAR
Yüksek Lisans
Türkçe
2022
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
- An autonomous area coverage method for endoscopic capsule robots
Endoskopik kapsül robotlarda otonom alantarama
İBRAHİM ÖMER ÇELİK
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SADIK FİKRET GÜRGEN
DR. MEHMET TURAN
- Novel OTFS system designs for 6G communication networks
6G haberleşme ağları için yeni OTFS sistem tasarımları
YUSUF İSLAM TEK
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERTUĞRUL BAŞAR