Topluluk öğrenmesi yöntemi ile mikrodizi veri analizi

Microarray data analysis with ensemble learning methods

PDF İndir

Tez No: 721540
Yazar: TCHARE ADNAANE BAWA
Danışmanlar: DOÇ. DR. ÇİĞDEM EROL
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: İstanbul Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Enformatik Ana Bilim Dalı
Bilim Dalı: Enformatik Bilim Dalı
Sayfa Sayısı: 87

Özet

Topluluk öğrenme yöntemi, tek bir algoritmadan elde edilenden daha iyi bir sınıflandırma veya tahmin sonucuna sahip olmak için birçok makine öğrenimi algoritmasını birleştirmekten oluşan bir makine öğrenimi tekniğidir. Son zamanlarda, topluluk öğrenme, çoğunlukla örüntü tanıma, öznitelik seçimi ve sınıflandırma gibi farklı amaçlar için birçok alanda kullanılan yoğun ve yaygın bir makine öğrenimi tekniği olarak görülmektedir. Torbalama (Bagging), Yükseltme (Boosting), Rasgele Orman (Random Forest), İstifleme (Stacking) en popüler ve yaygın olarak kullanılan topluluk öğrenme yöntemleridir. Topluluk öğrenmesinin avantajlarından biri, yüksek boyutlu ve karmaşık veri yapılarıyla başa çıkma yeteneğidir, yani topluluk öğrenmesi, veri kümelerinin varyansını azaltmaya yardımcı olur ve daha doğru sonuçlar sağlar. Mikrodizi analizi, hastalıkların erken tespiti ve sınıflandırılmasına, hastalıklarla ilgili genlerin veya biyobelirteçlerin bulunmasına ve ilaçların bulunmasına yardımcı olabilecek sonuçlar sağlamayı amaçlayan bir biyoenformatik yöntemdir. Bu nedenle, mikrodizi analizi ile elde edilen verinin çok dikkatli bir şekilde analiz edilmesi gerekmektedir. Mikrodizi veri analizinde, hastalık durumlarını tahmin etmek, hastalıkla ilgili genleri bulmak ve ayrıca örüntü tanımak amacıyla makine öğrenmesi algoritmaları kullanılmaktadır. Ancak, bu algoritmaların karşılaştığı yaygın büyük sorunlardan biri, küçük örnek boyutu ve mikrodizi veri setlerinin yüksek boyutluluğudur, çoğunlukla modellerin aşırı uyum göstermesine yol açan yüksek bir varyansın varlığı ile karakterize edilir ve bahsedilen yüksek varyans sorunu, birçok çalışmada vurgulanmıştır. Bu tezin amacı, topluluk öğrenme yöntemlerini kullanarak mikrodizi verisetlerindeki varyansı azaltmaya çalışmaktır. Bu amaçla NCBI GEO veri tabanında yer alan GSE19804 kodlu küçük hücreli olmayan akciğer kanseri veri seti kullanılmıştır. Bu çalışma çerçevesinde iki tür makine öğrenmesi modeli uygulanmıştır; biri istifleme topluluk öğrenmesine ve diğeri bir algoritmaya dayalıdır. Analizin başında seçilen 12 algoritmadan 7'si yani Radyal Destek Vektör Makinesi, Doğrusal Ayırıcı Analizi, k-En Yakın Komşular, C5.0, CART, Öznitelik Çıkarımlı Sinir Ağları, Genelleştirilmiş Doğrusal Model algoritmaları analizde kullanılmıştır. Sonuç olarak, analizlerimiz istifleme topluluk öğrenme modellerinin basit modellere kıyasla daha düşük varyansa sahip olduğunu göstermiştir.

Özet (Çeviri)

The Ensemble learning method is a machine learning technique that consists of combining many machine learning algorithms in order to have a better classification or prediction result than can be obtained from a single algorithm. Recently, ensemble learning has been shown as an intensive and widespread machine learning technique that is mostly used in many areas for different purposes such as pattern recognition, feature selection, and classification. Bagging, Boosting, Stacking, Random Forest are the most popular and widely used ensemble learning methods. One of the advantages of ensemble learning is the ability to deal with high- dimensional and complex data structures, that is to say ensemble learning helps reduce the variance of datasets and provides more accurate results. Microarray analysis is a bioinformatics method that aims to provide results that can help early detection and classification of diseases, to find genes or biomarkers related to diseases, and to drugs. Therefore, the data obtained by microarray analysis should be analyzed very carefully. In microarray data analysis, machine learning algorithms are used to predict disease states, to find disease-related genes and also to recognize patterns. However, one of the common major problems faced by these algorithms is the small sample size and the high dimensionality of the microarray datasets, often characterized by the presence of a high variance leading to the overfitting of models, and that high variance problem aforementioned has been highlighted in many studies. The aim of this thesis is to try to reduce the variance in microarray dataset by using ensemble learning methods. For this purpose, non-small cell lung cancer dataset (GSE19804) in the NCBI GEO database was used. Within the framework of this study, two types of machine learning models were applied; one is based on stacking ensemble learning and the other is based on simple algorithm. Seven of the 12 algorithms selected at the beginning of the analysis, namely Radial Support Vector Machine, Linear Discriminant Analysis, k-Nearest Neighbors, C5.0, CART, Feature Extraction Neural Networks, Generalized Linear Model algorithms were used in the analysis. As a result, stacking ensemble learning models showed lower variance compared to simple algorithm-based models.

Benzer Tezler

Tez No
831128
Prediction of protein-protein interactions through sequence based contrastive representation learning method
Sekans tabanlı ayrımsal temsil öğrenmesi yöntemi ile protein-protein etkileşimlerinin tahmini
DUYGU GEÇKİN
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliği Dokuz Eylül Üniversitesi
Biyomedikal Teknolojiler Ana Bilim Dalı
DOÇ. DR. GÜLESER KALAYCI DEMİR
Tez No
941783
Mamba ve topluluk öğrenmesi kullanarak hisse senedi hareket tahmini
Stock movement prediction using mamba and ensemble learning
HALİL İBRAHİM AKGÜN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol TOBB Ekonomi ve Teknoloji Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET MURAT ÖZBAYOĞLU
Tez No
756032
Tıbbi görüntü işleme ve derin öğrenme yöntemleriyle hastalıklarda teşhis otomasyon modeli
Diagnostic automation model in diseases with medical image processing and deep learning methods
MUSTAFA GÜLER
Doktora
Türkçe
2022
Endüstri ve Endüstri Mühendisliği İstanbul Üniversitesi-Cerrahpaşa
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERSİN NAMLI
DOÇ. DR. RAMAZAN ÜNLÜ
Tez No
711174
Fuzzy clustering based ensemble learning approach: Applications in digital advertising
Bulanık kümeleme tabanlı topluluk öğrenmesi yaklaşımı: Dijital reklam alanında uygulamalar
AHMET TEZCAN TEKİN
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
İşletme Mühendisliği Ana Bilim Dalı
PROF. DR. FERHAN ÇEBİ
PROF. DR. TOLGA KAYA
Tez No
825687
Toplu konut değerleme için hibrit makine öğrenimi ve topluluk öğrenmesi yaklaşımı ile model mimarisi
Model architecture for mass real estate appraisalwith hybrid machine learning and ensemble learning approach
CİHAN ÇILGIN
Doktora
Türkçe
2023
Yönetim Bilişim Sistemleri Gazi Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. HADİ GÖKÇEN

Geri Dön