Geri Dön

Derin öğrenmeye dayalı olarak yeni nesil dizileme verilerinin kümelenmesi

Clustering next generation sequencing data based on deep learning

  1. Tez No: 715110
  2. Yazar: UĞUR TOPRAK
  3. Danışmanlar: DOÇ. DR. BEYZA DOĞANAY ERDOĞAN
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 66

Özet

Günümüzde birçok alanda sıklıkla kullanılan kümeleme analizi, verilerin benzerlik, yoğunluk, uzaklıklar veya verinin belirli istatistiksel dağılım ölçülerine dayalı olarak kümeler halinde gruplandırılmasıdır. Özellikle teknolojinin de ilerlemesi ile genetik alanında büyük bir veri birikimi oluşmaya başlamaktadır. Bu verilerin analizinde şimdiye kadar kullanılan yöntemlerin de yetersiz kalmaya başladığı görülmektedir. Son yıllarda derin öğrenme yaklaşımlarının yaygınlaşması ile sağlık alanındaki kullanımı da artış göstermiştir. Derin öğrenme, tıbbi görüntülerin analizi, sağ kalım tahminleri ve biyoinformatik analizler gibi birçok uygulama alanında ilgi çekmektedir. Bu çalışmada Yeni Nesil Dizileme verileri derin öğrenme yaklaşımlarından birisi olan Derin Gömülü Kümeleme ile analiz edilmiş ve sonuçlar klasik makine öğrenmesi yöntemlerinden Kmeans, DBSCAN ve OPTICS ile karşılaştırılmıştır. Bu kapsamda öncelikle ham YND verilerinin işlenerek analize hazır hale getirilmesi için bir Jupyter not defteri oluşturulmuştur. Sonraki aşamada işlenmiş veriler R programlama dili yardımıyla tablo biçimine dönüştürülmüştür. Analiz için Python programlama dili kullanılmıştır. Bu aşamada küçük bir veri seti üzerinde pilot çalışma uygulanmış, sonrasında değişen küme sayılarına göre algoritmaların kümeleme performansı hem üç farklı skorlama yöntemi (Silhouette skoru, Calinski-Harabasz İndeksi ve Davies-Bouldin İndeksi) ile hem de grafiksel olarak incelenmiştir. Ayrıca, makine öğrenmesi yaklaşımlarında kullanılan en yakın iki gözlem arasındaki maksimum uzaklığı ifade eden“eps”parametresinin değişiminin küme sayıları göz önüne alınarak başarıya etkisi araştırılmıştır. Yapılan çalışma sonucunda, YND verileri gibi büyük yapıdaki verilerde makine öğrenmesi algoritmalarının küme sayısı ve farklı parametreler kullanıldığında da kümeleme başarılarının düştüğü gözlemlenmiştir. Derin öğrenmenin ise aksine büyük boyutlu verilerde yüksek başarı gösterdiği ve kullanılan küme sayısının bu başarıyı değiştirmediği kaydedilmiştir.

Özet (Çeviri)

Cluster analysis, which is frequently used in many fields today, is the grouping of data into clusters based on similarity, density, distances or certain statistical distribution measures of the data. Especially with the advancement of technology, a large amount of data is beginning to form in the field of genetics. It is seen that the methods used so far in the analysis of these data have begun to be insufficient. With the widespread use of deep learning approaches in recent years, their use in the field of health has also increased. Deep learning is attracting interest in many application areas such as analysis of medical images, survival predictions and bioinformatics analysis. In this study, Next Generation Sequencing data was analyzed with Deep Embedded Clustering, which is one of the deep learning approaches, and the results were compared with classical machine learning methods Kmeans, DBSCAN and OPTICS. In this context, first of all, a Jupyter notebook was created to process the raw NGS data and make it ready for clustering step. In the next step, the processed data was converted into a table format with the help of the R programming language. Python programming language was used for analysis. At this stage, a pilot study was carried out on a small data set, and then the clustering performance of the algorithms according to the changing number of clusters was examined graphically with three different scoring methods (Silhouette score, Calinski-Harabasz Index and Davies-Bouldin Index). In addition, the change of the“eps”parameter, which expresses the maximum distance between the two closest observations used in machine learning approaches, was investigated by considering the number of clusters. As a result of the study, it was observed that the clustering success of machine learning algorithms decreased when the number of clusters and different parameters were used in large structures such as NGS data. In deep learning, on the contrary, it was noted that it showed high success in large-scale data and the number of clusters we used did not change this success.

Benzer Tezler

  1. Yeni nesil DNA dizileme teknolojileri ile hızlı patojen tanıma yapabilen algoritmaların geliştirilmesi

    Development of rapid pathogen detection algorithms using next- generation DNA sequenci̇ng

    MERYEM ALTIN KARAGÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZKAN UFUK NALBANTOĞLU

  2. Derin öğrenme tabanlı görüntü gürültü giderme için yoğun bağlantı kullanan yeni yaklaşımlar

    Densely connected structures in deep learning based image denoising

    VEDAT ACAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER METE EKŞİOĞLU

  3. An autonomous area coverage method for endoscopic capsule robots

    Endoskopik kapsül robotlarda otonom alantarama

    İBRAHİM ÖMER ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SADIK FİKRET GÜRGEN

    DR. MEHMET TURAN

  4. Novel OTFS system designs for 6G communication networks

    6G haberleşme ağları için yeni OTFS sistem tasarımları

    YUSUF İSLAM TEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERTUĞRUL BAŞAR

  5. Cenab Şehabeddin'in şiirleri üzerinde bir araştırma

    Başlık çevirisi yok

    HASAN AKAY

    Doktora

    Türkçe

    Türkçe

    1989

    Türk Dili ve Edebiyatıİstanbul Üniversitesi

    PROF. DR. ZEYNEP KERMAN