Geri Dön

Makine öğrenmesi yöntemlerinin sınıflandırma başarısını arttırmaya yönelik meta analiz sonuçlarına dayalı bir model önerisi: Göğüs kanseri verileri üzerine uygulama

A proposed model based on meta-analysis results to improve the classification success of machine learning methods: Application on breast cancer data

  1. Tez No: 851048
  2. Yazar: MUHAMMED ENES EREN
  3. Danışmanlar: PROF. ALİ HAKAN BÜYÜKLÜ
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 75

Özet

Günümüzde makine öğrenmesi yöntemleri ile verilerden çıkarımlarda bulunarak sonuçları kullanmak oldukça yaygınlaşmaktadır. Tahmin edileceği gibi bu yöntemlerin doğruluk oranları (Accuracy) yapılan çalışmalar için önem arz etmektedir. Meta analizi, belirli konularda yapılan çalışmaların bir araya getirilip karşılaştırılarak incelenmesine dayanır. Çalışmamızda makine öğrenmesi yöntemlerinin hangi konularda, hangi verilerle daha başarılı sonuçlar verebileceği incelenmiştir. İnceleme sonrasındaki asıl amaç ise belirli bir konuda yapılmış meta analiz araştırmalarından yararlanarak makine öğrenmesi yöntemlerinin tahminlerini bir ensemble (kolektif) yöntem yaklaşımıyla ağırlıklar kullanarak doğruluk oranı daha yüksek yeni bir tahmin elde etmektir. Bu çerçevede meme kanseri alanında yapılmış iki meta analiz çalışması kullanılmıştır. Çalışmalar, farklı veriler ve modeller içeren 11 ve 37 adet araştırma içermektedir. Bahsedilen çalışmalarda yer alan araştırmaların tümünün makine öğrenmesi yöntemlerindeki doğruluk oranlarının ortalaması alınarak yeni tahminleri üretecek ağırlık katsayıları oluşturulmuştur. Ardından meme kanserinde bilinen bir veri setine makine öğrenmesi yöntemleri uygulanmış ve bahsedilen ağırlık katsayıları kullanılarak sonuçların ağırlıklı ortalaması alınmıştır. Yeni tahminin doğruluk oranı 0,982 bulunmuş olup çalışmadaki diğer yöntemlerin en iyisine bile (0,965) üstünlük sağlamıştır. Ardından ROC eğrileri ve AUC değerleri de değerlendirilmiş ve en yüksek AUC değerine (0,9788) sahip önerilen yöntemin daha başarılı bir tahmin elde ettiği görülmüştür. Kesinlik (Precision) ve F1 skorlarında da yeni tahminler öndedir ancak yakalama (Recall) skorunda Rastgele Orman yönteminden sonra en iyi ikinci skora sahiptir. Sonuç olarak; doğruluk, kesinlik, F1 ve kısmen yakalama değerleri yüksek tahminlerde bulunabilmek için meta analiz çalışmalarından yararlanılabileceği aşikardır. Ayrıca yöntemlerin uygulandığı veri seti ile ilgili daha önce yapılmış çalışmalar da göze alındığında önerilen yöntemin hatırı sayılır bir doğruluk oranına sahip olduğu da gözükmektedir. Nihayetinde ilgili alanda bilinen bir veri setine yeni yaklaşım uyguladığında doğruluk oranlarında gözle görülür artışlar elde edilmiştir.

Özet (Çeviri)

Presently, the extensive utilization of machine learning methods to deduce insights from data is increasingly prevalent. The accuracy rates of these methodologies hold paramount importance in conducted studies. Meta-analysis involves aggregating studies on specific subjects, comprehensively comparing them. In our study, it was examined in which subjects and with which data machine learning methods can provide more successful results. The main purpose after the review is to obtain a new prediction with a higher accuracy rate by using the predictions of machine learning methods with an ensemble method (weighted averaging) approach, by taking advantage of meta-analysis research on a specific subject. In this context, two meta-analysis studies conducted in the field of breast cancer were used. The studies include 11 and 37 studies containing different data and models. The weight coefficients were calculated using the accuracy rates' averages in these machine learning studies' methods. Afterwards, applying these coefficients to machine learning methods in a known breast cancer dataset using weighted averaging resulted in a prediction accuracy rate of 0.982, surpassing the study's best-performing method (0.965). Evaluation through ROC curves and AUC values showcased the method's high performance with a best AUC value of 0.9788. While these new predictions exhibited high precision, F1 scores, and relatively high recall—second only to the Random Forest method—; it's evident that meta-analysis studies can offer high accuracy, precision, F1 score and recall predictions. In addition, considering the previous studies on the data set to which the methods are applied, it appears that the proposed method has a considerable accuracy rate. Ultimately, applying this new approach to an established dataset in the field led to noticeable accuracy improvements.

Benzer Tezler

  1. Improving text categorization performance by combining feature selection methods

    Öznitelik seçme metotlarını birleştirerek metin sınıflandırma performansının iyileştirilmesi

    ECE ÖZBİLEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUNGA GÜNGÖR

  2. Ontoloji boyut indirgemeli derin öğrenme yaklaşımı: Yapısal olmayan dokümanların sınıflandırılması üzerine bir uygulama

    Deep learning approach with ontology based dimension reduction: An application on classification of unstructured documents

    İLKAY YELMEN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ GÜNEŞ

  3. CNN-based text-independent automatic speaker identification

    Evrişimsel sinir ağı tabanlı metinden bağımsız otomatik konuşmacı tanılama

    MANDANA FASOUNAKI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖKHAN İNCE

  4. New proposed methods for synthetic minority over-sampling technique

    Sentetik azınlık aşırı örnekleme tekniği için yeni önerilen yöntemler

    HAKAN KORUL

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Veri Mühendisliği ve İş Analitiği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN

  5. A robust framework covering measures developed using EVM metric against jamming attacks in next-generation communication systems

    Yeni nesil haberleşme sistemlerinde karıştırma saldırılarına karşı EVM metriği kullanılarak geliştirilen önlemleri kapsayan güçlü bir çerçeve

    CEM ÖRNEK

    Doktora

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. MESUT KARTAL