Yapılandırılmış veri kümelerinin GAN ile artırılmasının makine öğrenmesi yöntemleri üzerindeki etkisinin analizi
Analysis of the impact of augmenting structured datasets with GAN on machine learning methods
- Tez No: 857925
- Danışmanlar: DOÇ. DR. OKTAY YILDIZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 76
Özet
Makine öğrenmesi yöntemleri genellikle belirli bir amacı gerçekleştirmek üzere önceden sunulan veri kümelerini kullanır. Ancak, yetersiz veya temsil özelliği zayıf veri kümeleri modelin öğrenme başarısını olumsuz yönde etkiler. Yetersiz veya temsil edilmemiş örnek problemini aşmak için veri artırma yöntemleri sıklıkla kullanılmaktadır. Veri artırımı, sentetik veri oluşturarak bir veri kümesinin boyutunu ve çeşitliliğini artırmak için kullanılan bir metodolojidir. Özellikle orijinal veri kümesi yetersiz veya dengesizlik gösteriyorsa kullanılır. Bu tez çalışmasında genele açık iki farklı veri kümesi üzerinde Çekişmeli Üretici Ağ (GAN) ile veri artırımı gerçekleştirilmiş; elde edilen yeni veri kümesinin tahmin modellerindeki başarıma etkisi incelenmiştir. Deneysel çalışmada kullanılan ilk veri kümesi reklam tıklama tahmini amacıyla araştırmacılar tarafından sıklıkla kullanılan Müşteri Reklam Tıklama Tahmini veri kümesidir. Diğeri sağlık alanında kalp hastalığı tanısından kullanılan Koroner Arter Hastalığı veri kümesidir.Deneysel çalışmalarda, Çekişmeli Üretici Ağlar her iki problem için de ek eğitim örnekleri üretmek için kullanılmıştır. Daha sonra Çekişmeli Üretici Ağ tabanlı veri artırımının varlığı veya yokluğu dikkate alınarak birkaç makine öğrenimi yönteminin doğruluğu değerlendirilmiştir. Ayrıca, koroner arter hastalığı tahmini için daha başarılı olan özellikleri çıkarmak için özellik seçimi yaklaşımları kullanılmıştır. Bulgulara göre, algoritmaların çoğunluğu, Çekişmeli Üretici Ağ kullanımı ile veri artırımı sonrasında doğruluk, hassasiyet ve özgüllükte belirgin bir iyileşme göstermiştir. Bu sonuçlar, oluşturulan verinin, pozitif ve negatif olaylar arasındaki farkı doğru bir şekilde ayırt etme kapasitesini etkili bir şekilde artırdığını göstermektedir. Sonuçlara göre, Çekişmeli Üretici Ağ tabanlı veri artırımının tüm modeller için çeşitli derecelerde iyileşmeye neden olduğu bulunmuştur. Ayrıca, özellik seçimi stratejilerinin kullanımının koroner arter hastalığı tahmininin etkililiğini artırdığı gösterilmiştir. Bu çalışmada Çekişmeli Üretici Ağların veri artırma yöntemi olarak çeşitli alanlarda kullanılabileceği gösterilmiştir.
Özet (Çeviri)
Machine learning algorithms commonly leverage present datasets to accomplish a certain objective. Insufficient datasets might have a detrimental effect on the model's learning performance. Data augmentation approaches are commonly used to address the issue of inadequate instances. Data augmentation is a technique employed to enhance the amount and variety of a dataset by creating artificial data. It is especially beneficial when the initial dataset is poor or shows an imbalance. This thesis explores the application of Generative Adversarial Networks (GAN) for data augmentation. Two publically accessible datasets were used for this purpose. The main objective was to examine how the supplemented dataset affects the performance of prediction models. The first set of data employed in the experimental investigation is the Customer Ad Click Prediction dataset, which is widely utilized by academics for the specific aim of ad click prediction. The second dataset is the Coronary Artery Disease dataset, which is utilized in the health field for the purpose of diagnosing heart disease. Generative Adversarial Networks were used in experimental research to create additional training examples for both issues. Afterward, the precision of various machine learning techniques was evaluated by considering whether GAN-based data augmentation was present or not. Moreover, feature selection methodologies were employed to identify characteristics that demonstrate higher efficacy in predicting coronary artery disease. The findings indicate that most algorithms had a substantial enhancement in accuracy, precision, and specificity following the implementation of GAN-based data augmentation. The results demonstrate that the obtained data significantly improves the ability to differentiate between positive and negative instances. All models improved on different scales with GAN-based data augmentation. Feature selection algorithms also enhance coronary artery disease prediction. This study shows how Generative Adversarial Networks may enhance data across domains.
Benzer Tezler
- Identification of discourse relations in Turkish discourse bank
Türkçe söylem bankasında söylem bağıntılarının belirlenmesi
FERHAT KUTLU
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
PROF. DR. DENİZ ZEYREK BOZŞAHİN
DR. MURATHAN KURFALI
- Basamaklı öğretim modelinin öğrencilerin yaratıcı yazma başarılarına etkisi
The effect of the layered curriculum on students' creative writing achievements
ÜMMÜHAN GÜZEL BAYDOĞAN
Doktora
Türkçe
2024
Eğitim ve ÖğretimFırat ÜniversitesiTürkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
PROF. DR. SERDAR YAVUZ
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Açık kaynak ve ortak yaratımın etkileri: Open compute project'in veri merkezi pazarını dönüştürücü rolü
Unveiling the influence of open source and co-creation: The transformative effect of the open compute project on the data centre market
ÇAĞATAY YILMAZ
Yüksek Lisans
Türkçe
2024
Bilim ve TeknolojiAnadolu Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. FEYZA AĞLARGÖZ
- The design space of the basic design studio: An analysis and assessment with synthetic solutions
Temel tasarım stüdyosunun tasarım uzayı: Sentetik çözümlerle bir ölçme ve değerlendirme
SELEN ÇİÇEK
Yüksek Lisans
İngilizce
2023
Mimarlıkİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
PROF. DR. MİNE ÖZKAR KABAKÇIOĞLU