Yapılandırılmış veri kümelerinin GAN ile artırılmasının makine öğrenmesi yöntemleri üzerindeki etkisinin analizi
Analysis of the impact of augmenting structured datasets with GAN on machine learning methods
- Tez No: 857925
- Danışmanlar: DOÇ. DR. OKTAY YILDIZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 76
Özet
Makine öğrenmesi yöntemleri genellikle belirli bir amacı gerçekleştirmek üzere önceden sunulan veri kümelerini kullanır. Ancak, yetersiz veya temsil özelliği zayıf veri kümeleri modelin öğrenme başarısını olumsuz yönde etkiler. Yetersiz veya temsil edilmemiş örnek problemini aşmak için veri artırma yöntemleri sıklıkla kullanılmaktadır. Veri artırımı, sentetik veri oluşturarak bir veri kümesinin boyutunu ve çeşitliliğini artırmak için kullanılan bir metodolojidir. Özellikle orijinal veri kümesi yetersiz veya dengesizlik gösteriyorsa kullanılır. Bu tez çalışmasında genele açık iki farklı veri kümesi üzerinde Çekişmeli Üretici Ağ (GAN) ile veri artırımı gerçekleştirilmiş; elde edilen yeni veri kümesinin tahmin modellerindeki başarıma etkisi incelenmiştir. Deneysel çalışmada kullanılan ilk veri kümesi reklam tıklama tahmini amacıyla araştırmacılar tarafından sıklıkla kullanılan Müşteri Reklam Tıklama Tahmini veri kümesidir. Diğeri sağlık alanında kalp hastalığı tanısından kullanılan Koroner Arter Hastalığı veri kümesidir.Deneysel çalışmalarda, Çekişmeli Üretici Ağlar her iki problem için de ek eğitim örnekleri üretmek için kullanılmıştır. Daha sonra Çekişmeli Üretici Ağ tabanlı veri artırımının varlığı veya yokluğu dikkate alınarak birkaç makine öğrenimi yönteminin doğruluğu değerlendirilmiştir. Ayrıca, koroner arter hastalığı tahmini için daha başarılı olan özellikleri çıkarmak için özellik seçimi yaklaşımları kullanılmıştır. Bulgulara göre, algoritmaların çoğunluğu, Çekişmeli Üretici Ağ kullanımı ile veri artırımı sonrasında doğruluk, hassasiyet ve özgüllükte belirgin bir iyileşme göstermiştir. Bu sonuçlar, oluşturulan verinin, pozitif ve negatif olaylar arasındaki farkı doğru bir şekilde ayırt etme kapasitesini etkili bir şekilde artırdığını göstermektedir. Sonuçlara göre, Çekişmeli Üretici Ağ tabanlı veri artırımının tüm modeller için çeşitli derecelerde iyileşmeye neden olduğu bulunmuştur. Ayrıca, özellik seçimi stratejilerinin kullanımının koroner arter hastalığı tahmininin etkililiğini artırdığı gösterilmiştir. Bu çalışmada Çekişmeli Üretici Ağların veri artırma yöntemi olarak çeşitli alanlarda kullanılabileceği gösterilmiştir.
Özet (Çeviri)
Machine learning algorithms commonly leverage present datasets to accomplish a certain objective. Insufficient datasets might have a detrimental effect on the model's learning performance. Data augmentation approaches are commonly used to address the issue of inadequate instances. Data augmentation is a technique employed to enhance the amount and variety of a dataset by creating artificial data. It is especially beneficial when the initial dataset is poor or shows an imbalance. This thesis explores the application of Generative Adversarial Networks (GAN) for data augmentation. Two publically accessible datasets were used for this purpose. The main objective was to examine how the supplemented dataset affects the performance of prediction models. The first set of data employed in the experimental investigation is the Customer Ad Click Prediction dataset, which is widely utilized by academics for the specific aim of ad click prediction. The second dataset is the Coronary Artery Disease dataset, which is utilized in the health field for the purpose of diagnosing heart disease. Generative Adversarial Networks were used in experimental research to create additional training examples for both issues. Afterward, the precision of various machine learning techniques was evaluated by considering whether GAN-based data augmentation was present or not. Moreover, feature selection methodologies were employed to identify characteristics that demonstrate higher efficacy in predicting coronary artery disease. The findings indicate that most algorithms had a substantial enhancement in accuracy, precision, and specificity following the implementation of GAN-based data augmentation. The results demonstrate that the obtained data significantly improves the ability to differentiate between positive and negative instances. All models improved on different scales with GAN-based data augmentation. Feature selection algorithms also enhance coronary artery disease prediction. This study shows how Generative Adversarial Networks may enhance data across domains.
Benzer Tezler
- Developing generative adversarial networks to aid visual abstraction process in art and design education
Sanat ve tasarım eğitiminde görsel soyutlama sürecine yardımcı olacak üretken çekişmeli ağ modellerinin geliştirilmesi
SERKAN ŞİMŞEK
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YÜCEL BATU SALMAN
- Haber arşivlerinde olay çizge modeli ile yapılandırılmış bilgi keşfi ve soru cevaplama
Structured information discovery and question answering with an event graph model in news archives
BAŞAK BULUZ KÖMEÇOĞLU
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU YILMAZ
- Identification of discourse relations in Turkish discourse bank
Türkçe söylem bankasında söylem bağıntılarının belirlenmesi
FERHAT KUTLU
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
PROF. DR. DENİZ ZEYREK BOZŞAHİN
DR. MURATHAN KURFALI
- Somut ve somut olmayan kültürel mirasın miras yapı bilgi modellemesi (HBIM) ile bütünleştirilmesi: mimar sinan güzel sanatlar üniversitesi fındıklı kampüsü örneği
Integration of tangible and intangible cultural heritage into heritage building information modelling (HBIM): the case of mimar sinan fine arts university findikli campus
RIDHA HASAN TAQI FARAJALAH
Doktora
Türkçe
2025
MimarlıkMimar Sinan Güzel Sanatlar ÜniversitesiMimarlık Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TİGİN TÖRE
- Basamaklı öğretim modelinin öğrencilerin yaratıcı yazma başarılarına etkisi
The effect of the layered curriculum on students' creative writing achievements
ÜMMÜHAN GÜZEL BAYDOĞAN
Doktora
Türkçe
2024
Eğitim ve ÖğretimFırat ÜniversitesiTürkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
PROF. DR. SERDAR YAVUZ