Comparison of tabular data generation algorithms using gans
Sentetik tablo verisi üretmek için gan modellerinin karşılaştırılması
- Tez No: 810973
- Danışmanlar: PROF. DR. ADİL ALPKOÇAK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İZMİR BAKIRÇAY ÜNİVERSİTESİ
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
- Sayfa Sayısı: 51
Özet
Veri mahremiyeti, eksik veri, tutarsız veri ve veri yetersizliği gibi çeşitli veri kaynaklı sorunlar nedeniyle sentetik verilere olan ihtiyaç her geçen gün artmaktadır. Sentetik veri üretmek için GAN (Generative Adversarial Network), VAE (Variational Autoencoders), kopula vb. birçok yaklaşım geliştirilmiştir. Bu tezde farklı mimarilere ve özelliklere sahip 5 GAN modeli (C-GAN, CT-GAN, DAT-GAN, DPC-GAN, Copula-GAN) 5 iyi bilinen veri seti (adult, credit, census, insurance, cardio-train) üzerinde deneylerle karşılaştırdık. Değerlendirme sırasında sentetik verilerin gerçek verilere ne kadar benzediğini anlamak için çeşitli istatistiksel testler uyguladık ve elde edilen sonuçları paylaştık. Ayrıca, makine öğrenimi modellerini kullanarak gerçek veriler yerine sentetik verilerin nasıl kullanılabileceğini de gösterdik. Karışık veri türleri, uzun kuyruk problemleri, normal olmayan (çarpık) dağılımlar, çok tepeli dağılımlar, seyrek kodlanmış vektörler, yüksek derecede dengesiz kategorik sütunlar gibi bazı açık sorunların deneylerimizde nasıl sonuç verdiğini grafiklerle sunduk. Deneysel sonuçlara bakıldığında kullanılacak GAN modelinin başarısı veri setlerinin özelliklerine ve boyutlarına göre değişmekle birlikte deneydeki en tutarlı ve başarılı sonuçlar Copula-GAN, DPC-GAN ve CT-GAN modellerine ait gözlemlenmiştir.
Özet (Çeviri)
The need for synthetic data is increasing day by day due to various data problems such as privacy regulations, missing data, inconsistency, and insufficiency. Many approaches, such as GAN (Generative Adversarial Network), VAE (Variational Autoencoders), copula etc. have been developed to generate synthetic data. In this research, we evaluated five GAN-based synthetic tabular data generation models in a comprehensive and versatile way, namely C-GAN, CT-GAN, DAT-GAN, DPC-GAN, and Copula-GAN. We conducted experiments on 5 well-known datasets from different fields and with different characteristics: adult, credit, census, insurance, and cardio-train. During the evaluation, we applied various statistical tests and shared the results to understand how similar the synthetic data were to the real data. We also demonstrated how synthetic data can be used instead of real data using machine learning models. We showed how some open issues, such as mixed data types, long tail problems, non-gaussian (skewed) distributions, multimodal distributions, sparsely hot-coded vectors, and highly imbalanced categorical columns, yielded results in our experiments. Considering the experimental results, although the success of the GAN model to be used varies according to the characteristics and size of the datasets, the most consistent and successful results belong to the Copula-GAN, DPC-GAN, and CT-GAN models.
Benzer Tezler
- NiCoCrAlY+YSZ ile kaplanmış kanatçıklı diskin dinamik sonluelemanlar analizi ve toplu parametreli sistem ilemodellenmesi
Dynamic fem analysis and modeling of NiCoCrAlY+YSZ coated blisk with lumped parameter system
MUSTAFA YİĞİT OTAY
Yüksek Lisans
Türkçe
2023
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. VAHİT MERMERTAŞ
- Öğretmen ve anne görüşleri doğrultusunda 5-6 yaş Alfa ve Z kuşağı çocuklarının karşılaştırılması
Comparison of Alpha and Z generation children aged 5-6 years in accordance with the views of teachers and mothers
NURSENA GÖÇMEN
Yüksek Lisans
Türkçe
2024
Eğitim ve ÖğretimBursa Uludağ ÜniversitesiTemel Eğitim Ana Bilim Dalı
PROF. DR. HANDAN ASUDE BAŞAL
- 11. sınıf Türkiye Cumhuriyeti İnkılap Tarihi ve Atatürkçülük dersinde ölçme ve değerlendirme konusunda tarih öğretmenlerinin görüşleri (Trabzon ili örneği)
Perceptions of history teachers about measurement and assesment of 11th grade History of the Republic of Turkey and Kemalism (Example of Trabzon)
BEKİR SIDDIK ÇELEBİ
Yüksek Lisans
Türkçe
2014
TarihKaradeniz Teknik ÜniversitesiOrtaöğretim Sosyal Alanlar Eğitimi Ana Bilim Dalı
DOÇ. DR. RAHMİ ÇİÇEK
- İçi beton dolu çift cidarlı çelik tüplerin (CFDST) eksenel basınç altında deneysel olarak incelenmesi
Experimental investigation of concrete filled double skin steel tubes (CFDSTs) under axial compression
BERİKA CEREN CİHAN YILMAZ
Yüksek Lisans
Türkçe
2022
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. OĞUZ CEM ÇELİK
- Synthesis, characterization, and application of a novel thin film composite (TFC) forward osmosis (FO) membrane for seawater desalination
Deniz suyu arıtımı için yeni ince film kaplamalı ileri osmoz (İO) membranı üretimi, karakterizasyonu ve uygulanması
RAED M S ELKHALDI
Doktora
İngilizce
2018
Çevre Mühendisliğiİstanbul Teknik ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
PROF. DR. İSMAİL KOYUNCU