Geri Dön

Yapılandırılmış veri kümelerinin GAN ile artırılmasının makine öğrenmesi yöntemleri üzerindeki etkisinin analizi

Analysis of the impact of augmenting structured datasets with GAN on machine learning methods

  1. Tez No: 857925
  2. Yazar: AMEL SULAIMAN MANDAN SALIHI
  3. Danışmanlar: DOÇ. DR. OKTAY YILDIZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 76

Özet

Makine öğrenmesi yöntemleri genellikle belirli bir amacı gerçekleştirmek üzere önceden sunulan veri kümelerini kullanır. Ancak, yetersiz veya temsil özelliği zayıf veri kümeleri modelin öğrenme başarısını olumsuz yönde etkiler. Yetersiz veya temsil edilmemiş örnek problemini aşmak için veri artırma yöntemleri sıklıkla kullanılmaktadır. Veri artırımı, sentetik veri oluşturarak bir veri kümesinin boyutunu ve çeşitliliğini artırmak için kullanılan bir metodolojidir. Özellikle orijinal veri kümesi yetersiz veya dengesizlik gösteriyorsa kullanılır. Bu tez çalışmasında genele açık iki farklı veri kümesi üzerinde Çekişmeli Üretici Ağ (GAN) ile veri artırımı gerçekleştirilmiş; elde edilen yeni veri kümesinin tahmin modellerindeki başarıma etkisi incelenmiştir. Deneysel çalışmada kullanılan ilk veri kümesi reklam tıklama tahmini amacıyla araştırmacılar tarafından sıklıkla kullanılan Müşteri Reklam Tıklama Tahmini veri kümesidir. Diğeri sağlık alanında kalp hastalığı tanısından kullanılan Koroner Arter Hastalığı veri kümesidir.Deneysel çalışmalarda, Çekişmeli Üretici Ağlar her iki problem için de ek eğitim örnekleri üretmek için kullanılmıştır. Daha sonra Çekişmeli Üretici Ağ tabanlı veri artırımının varlığı veya yokluğu dikkate alınarak birkaç makine öğrenimi yönteminin doğruluğu değerlendirilmiştir. Ayrıca, koroner arter hastalığı tahmini için daha başarılı olan özellikleri çıkarmak için özellik seçimi yaklaşımları kullanılmıştır. Bulgulara göre, algoritmaların çoğunluğu, Çekişmeli Üretici Ağ kullanımı ile veri artırımı sonrasında doğruluk, hassasiyet ve özgüllükte belirgin bir iyileşme göstermiştir. Bu sonuçlar, oluşturulan verinin, pozitif ve negatif olaylar arasındaki farkı doğru bir şekilde ayırt etme kapasitesini etkili bir şekilde artırdığını göstermektedir. Sonuçlara göre, Çekişmeli Üretici Ağ tabanlı veri artırımının tüm modeller için çeşitli derecelerde iyileşmeye neden olduğu bulunmuştur. Ayrıca, özellik seçimi stratejilerinin kullanımının koroner arter hastalığı tahmininin etkililiğini artırdığı gösterilmiştir. Bu çalışmada Çekişmeli Üretici Ağların veri artırma yöntemi olarak çeşitli alanlarda kullanılabileceği gösterilmiştir.

Özet (Çeviri)

Machine learning algorithms commonly leverage present datasets to accomplish a certain objective. Insufficient datasets might have a detrimental effect on the model's learning performance. Data augmentation approaches are commonly used to address the issue of inadequate instances. Data augmentation is a technique employed to enhance the amount and variety of a dataset by creating artificial data. It is especially beneficial when the initial dataset is poor or shows an imbalance. This thesis explores the application of Generative Adversarial Networks (GAN) for data augmentation. Two publically accessible datasets were used for this purpose. The main objective was to examine how the supplemented dataset affects the performance of prediction models. The first set of data employed in the experimental investigation is the Customer Ad Click Prediction dataset, which is widely utilized by academics for the specific aim of ad click prediction. The second dataset is the Coronary Artery Disease dataset, which is utilized in the health field for the purpose of diagnosing heart disease. Generative Adversarial Networks were used in experimental research to create additional training examples for both issues. Afterward, the precision of various machine learning techniques was evaluated by considering whether GAN-based data augmentation was present or not. Moreover, feature selection methodologies were employed to identify characteristics that demonstrate higher efficacy in predicting coronary artery disease. The findings indicate that most algorithms had a substantial enhancement in accuracy, precision, and specificity following the implementation of GAN-based data augmentation. The results demonstrate that the obtained data significantly improves the ability to differentiate between positive and negative instances. All models improved on different scales with GAN-based data augmentation. Feature selection algorithms also enhance coronary artery disease prediction. This study shows how Generative Adversarial Networks may enhance data across domains.

Benzer Tezler

  1. Identification of discourse relations in Turkish discourse bank

    Türkçe söylem bankasında söylem bağıntılarının belirlenmesi

    FERHAT KUTLU

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DR. DENİZ ZEYREK BOZŞAHİN

    DR. MURATHAN KURFALI

  2. Basamaklı öğretim modelinin öğrencilerin yaratıcı yazma başarılarına etkisi

    The effect of the layered curriculum on students' creative writing achievements

    ÜMMÜHAN GÜZEL BAYDOĞAN

    Doktora

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimFırat Üniversitesi

    Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı

    PROF. DR. SERDAR YAVUZ

  3. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  4. Açık kaynak ve ortak yaratımın etkileri: Open compute project'in veri merkezi pazarını dönüştürücü rolü

    Unveiling the influence of open source and co-creation: The transformative effect of the open compute project on the data centre market

    ÇAĞATAY YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilim ve TeknolojiAnadolu Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. FEYZA AĞLARGÖZ

  5. The design space of the basic design studio: An analysis and assessment with synthetic solutions

    Temel tasarım stüdyosunun tasarım uzayı: Sentetik çözümlerle bir ölçme ve değerlendirme

    SELEN ÇİÇEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. MİNE ÖZKAR KABAKÇIOĞLU