Geri Dön

Topluluk öğrenmesi yöntemi ile mikrodizi veri analizi

Microarray data analysis with ensemble learning methods

  1. Tez No: 721540
  2. Yazar: TCHARE ADNAANE BAWA
  3. Danışmanlar: DOÇ. DR. ÇİĞDEM EROL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Enformatik Ana Bilim Dalı
  12. Bilim Dalı: Enformatik Bilim Dalı
  13. Sayfa Sayısı: 87

Özet

Topluluk öğrenme yöntemi, tek bir algoritmadan elde edilenden daha iyi bir sınıflandırma veya tahmin sonucuna sahip olmak için birçok makine öğrenimi algoritmasını birleştirmekten oluşan bir makine öğrenimi tekniğidir. Son zamanlarda, topluluk öğrenme, çoğunlukla örüntü tanıma, öznitelik seçimi ve sınıflandırma gibi farklı amaçlar için birçok alanda kullanılan yoğun ve yaygın bir makine öğrenimi tekniği olarak görülmektedir. Torbalama (Bagging), Yükseltme (Boosting), Rasgele Orman (Random Forest), İstifleme (Stacking) en popüler ve yaygın olarak kullanılan topluluk öğrenme yöntemleridir. Topluluk öğrenmesinin avantajlarından biri, yüksek boyutlu ve karmaşık veri yapılarıyla başa çıkma yeteneğidir, yani topluluk öğrenmesi, veri kümelerinin varyansını azaltmaya yardımcı olur ve daha doğru sonuçlar sağlar. Mikrodizi analizi, hastalıkların erken tespiti ve sınıflandırılmasına, hastalıklarla ilgili genlerin veya biyobelirteçlerin bulunmasına ve ilaçların bulunmasına yardımcı olabilecek sonuçlar sağlamayı amaçlayan bir biyoenformatik yöntemdir. Bu nedenle, mikrodizi analizi ile elde edilen verinin çok dikkatli bir şekilde analiz edilmesi gerekmektedir. Mikrodizi veri analizinde, hastalık durumlarını tahmin etmek, hastalıkla ilgili genleri bulmak ve ayrıca örüntü tanımak amacıyla makine öğrenmesi algoritmaları kullanılmaktadır. Ancak, bu algoritmaların karşılaştığı yaygın büyük sorunlardan biri, küçük örnek boyutu ve mikrodizi veri setlerinin yüksek boyutluluğudur, çoğunlukla modellerin aşırı uyum göstermesine yol açan yüksek bir varyansın varlığı ile karakterize edilir ve bahsedilen yüksek varyans sorunu, birçok çalışmada vurgulanmıştır. Bu tezin amacı, topluluk öğrenme yöntemlerini kullanarak mikrodizi verisetlerindeki varyansı azaltmaya çalışmaktır. Bu amaçla NCBI GEO veri tabanında yer alan GSE19804 kodlu küçük hücreli olmayan akciğer kanseri veri seti kullanılmıştır. Bu çalışma çerçevesinde iki tür makine öğrenmesi modeli uygulanmıştır; biri istifleme topluluk öğrenmesine ve diğeri bir algoritmaya dayalıdır. Analizin başında seçilen 12 algoritmadan 7'si yani Radyal Destek Vektör Makinesi, Doğrusal Ayırıcı Analizi, k-En Yakın Komşular, C5.0, CART, Öznitelik Çıkarımlı Sinir Ağları, Genelleştirilmiş Doğrusal Model algoritmaları analizde kullanılmıştır. Sonuç olarak, analizlerimiz istifleme topluluk öğrenme modellerinin basit modellere kıyasla daha düşük varyansa sahip olduğunu göstermiştir.

Özet (Çeviri)

The Ensemble learning method is a machine learning technique that consists of combining many machine learning algorithms in order to have a better classification or prediction result than can be obtained from a single algorithm. Recently, ensemble learning has been shown as an intensive and widespread machine learning technique that is mostly used in many areas for different purposes such as pattern recognition, feature selection, and classification. Bagging, Boosting, Stacking, Random Forest are the most popular and widely used ensemble learning methods. One of the advantages of ensemble learning is the ability to deal with high- dimensional and complex data structures, that is to say ensemble learning helps reduce the variance of datasets and provides more accurate results. Microarray analysis is a bioinformatics method that aims to provide results that can help early detection and classification of diseases, to find genes or biomarkers related to diseases, and to drugs. Therefore, the data obtained by microarray analysis should be analyzed very carefully. In microarray data analysis, machine learning algorithms are used to predict disease states, to find disease-related genes and also to recognize patterns. However, one of the common major problems faced by these algorithms is the small sample size and the high dimensionality of the microarray datasets, often characterized by the presence of a high variance leading to the overfitting of models, and that high variance problem aforementioned has been highlighted in many studies. The aim of this thesis is to try to reduce the variance in microarray dataset by using ensemble learning methods. For this purpose, non-small cell lung cancer dataset (GSE19804) in the NCBI GEO database was used. Within the framework of this study, two types of machine learning models were applied; one is based on stacking ensemble learning and the other is based on simple algorithm. Seven of the 12 algorithms selected at the beginning of the analysis, namely Radial Support Vector Machine, Linear Discriminant Analysis, k-Nearest Neighbors, C5.0, CART, Feature Extraction Neural Networks, Generalized Linear Model algorithms were used in the analysis. As a result, stacking ensemble learning models showed lower variance compared to simple algorithm-based models.

Benzer Tezler

  1. Prediction of protein-protein interactions through sequence based contrastive representation learning method

    Sekans tabanlı ayrımsal temsil öğrenmesi yöntemi ile protein-protein etkileşimlerinin tahmini

    DUYGU GEÇKİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiDokuz Eylül Üniversitesi

    Biyomedikal Teknolojiler Ana Bilim Dalı

    DOÇ. DR. GÜLESER KALAYCI DEMİR

  2. Tıbbi görüntü işleme ve derin öğrenme yöntemleriyle hastalıklarda teşhis otomasyon modeli

    Diagnostic automation model in diseases with medical image processing and deep learning methods

    MUSTAFA GÜLER

    Doktora

    Türkçe

    Türkçe

    2022

    Endüstri ve Endüstri Mühendisliğiİstanbul Üniversitesi-Cerrahpaşa

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERSİN NAMLI

    DOÇ. DR. RAMAZAN ÜNLÜ

  3. Fuzzy clustering based ensemble learning approach: Applications in digital advertising

    Bulanık kümeleme tabanlı topluluk öğrenmesi yaklaşımı: Dijital reklam alanında uygulamalar

    AHMET TEZCAN TEKİN

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. FERHAN ÇEBİ

    PROF. DR. TOLGA KAYA

  4. Ensemble based feature selection with hybrid model

    Hibrit modeli ile topluluk temelli öznitelik seçimi

    CEYLAN DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Matematikİstanbul Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İZZET GÖKSEL

    DOÇ. DR. SÜREYYA AKYÜZ

  5. Toplu konut değerleme için hibrit makine öğrenimi ve topluluk öğrenmesi yaklaşımı ile model mimarisi

    Model architecture for mass real estate appraisalwith hybrid machine learning and ensemble learning approach

    CİHAN ÇILGIN

    Doktora

    Türkçe

    Türkçe

    2023

    Yönetim Bilişim SistemleriGazi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. HADİ GÖKÇEN