Makine öğrenmesi yöntemlerinin sınıflandırma başarısını arttırmaya yönelik meta analiz sonuçlarına dayalı bir model önerisi: Göğüs kanseri verileri üzerine uygulama
A proposed model based on meta-analysis results to improve the classification success of machine learning methods: Application on breast cancer data
- Tez No: 851048
- Danışmanlar: PROF. ALİ HAKAN BÜYÜKLÜ
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 75
Özet
Günümüzde makine öğrenmesi yöntemleri ile verilerden çıkarımlarda bulunarak sonuçları kullanmak oldukça yaygınlaşmaktadır. Tahmin edileceği gibi bu yöntemlerin doğruluk oranları (Accuracy) yapılan çalışmalar için önem arz etmektedir. Meta analizi, belirli konularda yapılan çalışmaların bir araya getirilip karşılaştırılarak incelenmesine dayanır. Çalışmamızda makine öğrenmesi yöntemlerinin hangi konularda, hangi verilerle daha başarılı sonuçlar verebileceği incelenmiştir. İnceleme sonrasındaki asıl amaç ise belirli bir konuda yapılmış meta analiz araştırmalarından yararlanarak makine öğrenmesi yöntemlerinin tahminlerini bir ensemble (kolektif) yöntem yaklaşımıyla ağırlıklar kullanarak doğruluk oranı daha yüksek yeni bir tahmin elde etmektir. Bu çerçevede meme kanseri alanında yapılmış iki meta analiz çalışması kullanılmıştır. Çalışmalar, farklı veriler ve modeller içeren 11 ve 37 adet araştırma içermektedir. Bahsedilen çalışmalarda yer alan araştırmaların tümünün makine öğrenmesi yöntemlerindeki doğruluk oranlarının ortalaması alınarak yeni tahminleri üretecek ağırlık katsayıları oluşturulmuştur. Ardından meme kanserinde bilinen bir veri setine makine öğrenmesi yöntemleri uygulanmış ve bahsedilen ağırlık katsayıları kullanılarak sonuçların ağırlıklı ortalaması alınmıştır. Yeni tahminin doğruluk oranı 0,982 bulunmuş olup çalışmadaki diğer yöntemlerin en iyisine bile (0,965) üstünlük sağlamıştır. Ardından ROC eğrileri ve AUC değerleri de değerlendirilmiş ve en yüksek AUC değerine (0,9788) sahip önerilen yöntemin daha başarılı bir tahmin elde ettiği görülmüştür. Kesinlik (Precision) ve F1 skorlarında da yeni tahminler öndedir ancak yakalama (Recall) skorunda Rastgele Orman yönteminden sonra en iyi ikinci skora sahiptir. Sonuç olarak; doğruluk, kesinlik, F1 ve kısmen yakalama değerleri yüksek tahminlerde bulunabilmek için meta analiz çalışmalarından yararlanılabileceği aşikardır. Ayrıca yöntemlerin uygulandığı veri seti ile ilgili daha önce yapılmış çalışmalar da göze alındığında önerilen yöntemin hatırı sayılır bir doğruluk oranına sahip olduğu da gözükmektedir. Nihayetinde ilgili alanda bilinen bir veri setine yeni yaklaşım uyguladığında doğruluk oranlarında gözle görülür artışlar elde edilmiştir.
Özet (Çeviri)
Presently, the extensive utilization of machine learning methods to deduce insights from data is increasingly prevalent. The accuracy rates of these methodologies hold paramount importance in conducted studies. Meta-analysis involves aggregating studies on specific subjects, comprehensively comparing them. In our study, it was examined in which subjects and with which data machine learning methods can provide more successful results. The main purpose after the review is to obtain a new prediction with a higher accuracy rate by using the predictions of machine learning methods with an ensemble method (weighted averaging) approach, by taking advantage of meta-analysis research on a specific subject. In this context, two meta-analysis studies conducted in the field of breast cancer were used. The studies include 11 and 37 studies containing different data and models. The weight coefficients were calculated using the accuracy rates' averages in these machine learning studies' methods. Afterwards, applying these coefficients to machine learning methods in a known breast cancer dataset using weighted averaging resulted in a prediction accuracy rate of 0.982, surpassing the study's best-performing method (0.965). Evaluation through ROC curves and AUC values showcased the method's high performance with a best AUC value of 0.9788. While these new predictions exhibited high precision, F1 scores, and relatively high recall—second only to the Random Forest method—; it's evident that meta-analysis studies can offer high accuracy, precision, F1 score and recall predictions. In addition, considering the previous studies on the data set to which the methods are applied, it appears that the proposed method has a considerable accuracy rate. Ultimately, applying this new approach to an established dataset in the field led to noticeable accuracy improvements.
Benzer Tezler
- Improving text categorization performance by combining feature selection methods
Öznitelik seçme metotlarını birleştirerek metin sınıflandırma performansının iyileştirilmesi
ECE ÖZBİLEN
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUNGA GÜNGÖR
- Ontoloji boyut indirgemeli derin öğrenme yaklaşımı: Yapısal olmayan dokümanların sınıflandırılması üzerine bir uygulama
Deep learning approach with ontology based dimension reduction: An application on classification of unstructured documents
İLKAY YELMEN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ GÜNEŞ
- CNN-based text-independent automatic speaker identification
Evrişimsel sinir ağı tabanlı metinden bağımsız otomatik konuşmacı tanılama
MANDANA FASOUNAKI
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKHAN İNCE
- New proposed methods for synthetic minority over-sampling technique
Sentetik azınlık aşırı örnekleme tekniği için yeni önerilen yöntemler
HAKAN KORUL
Yüksek Lisans
İngilizce
2024
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiVeri Mühendisliği ve İş Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
- A robust framework covering measures developed using EVM metric against jamming attacks in next-generation communication systems
Yeni nesil haberleşme sistemlerinde karıştırma saldırılarına karşı EVM metriği kullanılarak geliştirilen önlemleri kapsayan güçlü bir çerçeve
CEM ÖRNEK
Doktora
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MESUT KARTAL