Geri Dön

Comparison of tabular data generation algorithms using gans

Sentetik tablo verisi üretmek için gan modellerinin karşılaştırılması

  1. Tez No: 810973
  2. Yazar: MURAT ŞAHİN
  3. Danışmanlar: PROF. DR. ADİL ALPKOÇAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İZMİR BAKIRÇAY ÜNİVERSİTESİ
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 51

Özet

Veri mahremiyeti, eksik veri, tutarsız veri ve veri yetersizliği gibi çeşitli veri kaynaklı sorunlar nedeniyle sentetik verilere olan ihtiyaç her geçen gün artmaktadır. Sentetik veri üretmek için GAN (Generative Adversarial Network), VAE (Variational Autoencoders), kopula vb. birçok yaklaşım geliştirilmiştir. Bu tezde farklı mimarilere ve özelliklere sahip 5 GAN modeli (C-GAN, CT-GAN, DAT-GAN, DPC-GAN, Copula-GAN) 5 iyi bilinen veri seti (adult, credit, census, insurance, cardio-train) üzerinde deneylerle karşılaştırdık. Değerlendirme sırasında sentetik verilerin gerçek verilere ne kadar benzediğini anlamak için çeşitli istatistiksel testler uyguladık ve elde edilen sonuçları paylaştık. Ayrıca, makine öğrenimi modellerini kullanarak gerçek veriler yerine sentetik verilerin nasıl kullanılabileceğini de gösterdik. Karışık veri türleri, uzun kuyruk problemleri, normal olmayan (çarpık) dağılımlar, çok tepeli dağılımlar, seyrek kodlanmış vektörler, yüksek derecede dengesiz kategorik sütunlar gibi bazı açık sorunların deneylerimizde nasıl sonuç verdiğini grafiklerle sunduk. Deneysel sonuçlara bakıldığında kullanılacak GAN modelinin başarısı veri setlerinin özelliklerine ve boyutlarına göre değişmekle birlikte deneydeki en tutarlı ve başarılı sonuçlar Copula-GAN, DPC-GAN ve CT-GAN modellerine ait gözlemlenmiştir.

Özet (Çeviri)

The need for synthetic data is increasing day by day due to various data problems such as privacy regulations, missing data, inconsistency, and insufficiency. Many approaches, such as GAN (Generative Adversarial Network), VAE (Variational Autoencoders), copula etc. have been developed to generate synthetic data. In this research, we evaluated five GAN-based synthetic tabular data generation models in a comprehensive and versatile way, namely C-GAN, CT-GAN, DAT-GAN, DPC-GAN, and Copula-GAN. We conducted experiments on 5 well-known datasets from different fields and with different characteristics: adult, credit, census, insurance, and cardio-train. During the evaluation, we applied various statistical tests and shared the results to understand how similar the synthetic data were to the real data. We also demonstrated how synthetic data can be used instead of real data using machine learning models. We showed how some open issues, such as mixed data types, long tail problems, non-gaussian (skewed) distributions, multimodal distributions, sparsely hot-coded vectors, and highly imbalanced categorical columns, yielded results in our experiments. Considering the experimental results, although the success of the GAN model to be used varies according to the characteristics and size of the datasets, the most consistent and successful results belong to the Copula-GAN, DPC-GAN, and CT-GAN models.

Benzer Tezler

  1. NiCoCrAlY+YSZ ile kaplanmış kanatçıklı diskin dinamik sonluelemanlar analizi ve toplu parametreli sistem ilemodellenmesi

    Dynamic fem analysis and modeling of NiCoCrAlY+YSZ coated blisk with lumped parameter system

    MUSTAFA YİĞİT OTAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. VAHİT MERMERTAŞ

  2. Öğretmen ve anne görüşleri doğrultusunda 5-6 yaş Alfa ve Z kuşağı çocuklarının karşılaştırılması

    Comparison of Alpha and Z generation children aged 5-6 years in accordance with the views of teachers and mothers

    NURSENA GÖÇMEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimBursa Uludağ Üniversitesi

    Temel Eğitim Ana Bilim Dalı

    PROF. DR. HANDAN ASUDE BAŞAL

  3. 11. sınıf Türkiye Cumhuriyeti İnkılap Tarihi ve Atatürkçülük dersinde ölçme ve değerlendirme konusunda tarih öğretmenlerinin görüşleri (Trabzon ili örneği)

    Perceptions of history teachers about measurement and assesment of 11th grade History of the Republic of Turkey and Kemalism (Example of Trabzon)

    BEKİR SIDDIK ÇELEBİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    TarihKaradeniz Teknik Üniversitesi

    Ortaöğretim Sosyal Alanlar Eğitimi Ana Bilim Dalı

    DOÇ. DR. RAHMİ ÇİÇEK

  4. İçi beton dolu çift cidarlı çelik tüplerin (CFDST) eksenel basınç altında deneysel olarak incelenmesi

    Experimental investigation of concrete filled double skin steel tubes (CFDSTs) under axial compression

    BERİKA CEREN CİHAN YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. OĞUZ CEM ÇELİK

  5. Synthesis, characterization, and application of a novel thin film composite (TFC) forward osmosis (FO) membrane for seawater desalination

    Deniz suyu arıtımı için yeni ince film kaplamalı ileri osmoz (İO) membranı üretimi, karakterizasyonu ve uygulanması

    RAED M S ELKHALDI

    Doktora

    İngilizce

    İngilizce

    2018

    Çevre Mühendisliğiİstanbul Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    PROF. DR. İSMAİL KOYUNCU