Minority class augmentation in tabular data using generative adversarial network models
Üretken çekişmeli ağ modelleri kullanarak tablo verisinde azınlık sınıf artırımı
- Tez No: 831156
- Danışmanlar: DOÇ. DR. FULYA GÖKALP YAVUZ
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 110
Özet
Hızla gelişen teknoloji ortamında, ilerleyen teknoloji ile verilerin katlanarak büyümesi arasındaki etkileşim, yapay zekanın ortaya çıkmasında bir tetikleyici olmuştur. Bu veriye dayalı geri bildirim döngüleri, sürekli özelleştirmeye olanak tanıyarak yapay zekanın gelişmesini sağlamış ve yeni bir teknolojik sıçramayı temsil etmiştir. Bununla birlikte, yapay zeka alanında birçok zorluk da ortaya çıkmaktadır. Etkili eğitim, büyük ve çeşitli veri kümeleri gerektiren önemli miktarda veri gerektirdiğinden, bu zorluklardan ilki, yapay zeka modelini beslemek için gereken verilerin kalitesi ve miktarıdır. Diğer bir konu da yapay zeka sistemlerinin sağlık, finans, havacılık ve savunma gibi alanlardaki gizli bilgileri içselleştirmesi nedeniyle veri gizliliği endişelerinin ortaya çıkmasıdır. Veri kümelerinde dengesiz sınıflara sahip olmak, özellikle sınıflandırma algoritmalarının adaletini ve doğruluğunu etkilediği için başka bir zorluktur. Bu zorlukların üstesinden gelmek için veri bilimi ve yapay zeka uzmanları, verileri sentezlemek ve/veya artırmak için çeşitli yöntemler geliştirmektedir. Bu çalışmalarda önemli rol oynayan Üretken Çekişmeli Ağlar ile farklı veri türlerinin üretilmesinde büyük bir başarı sağlanmıştır. Bu tez tablo verilerindeki azınlık sınıfını artırmaya odaklanmaktadır. Farklı hacimlere sahip çeşitli açık kaynaklı dengesiz sınıf veri kümelerini kullanan çalışma, azınlık sınıfını artırmak için çeşitli GAN modellerinden yararlanır. Orijinal ve artırılmış veri kümeleri daha sonra istatistiksel görselleştirmeler ve makine öğrenimi modeli performansları kullanılarak karşılaştırılır. Sonuç olarak bu araştırma, GAN'ların yapay zekadaki verilerle ilgili zorlukları ele almadaki önemli rolünü vurgulamakta ve gelişmiş model performansı için dengesiz veri kümelerini yeniden dengelemedeki etkinliğini göstermektedir.
Özet (Çeviri)
In the rapidly developing technology environment, the interaction between advancing technology and the exponential growth of data has been a trigger in the emergence of Artificial Intelligence (AI). These data-driven feedback loops enabled continued customization, enabling AI to evolve and representing a new technological leap forward. Nevertheless, many challenges also arise in the field of AI. The first of these challenges is the quality and quantity of the data required to feed the AI model, as effective training requires a significant amount of data, which necessitates large and diverse datasets. Another issue is that data privacy concerns have arisen as AI systems internalize confidential information from fields such as health, finance, aerospace and defense. Having imbalanced classes within datasets is another challenge since it specifically affects the fairness and accuracy of classification algorithms. To overcome these challenges, Data Science (DS) and AI experts are developing various methods of synthesizing and/or augmenting data. Great success has been achieved in the generation of different data types with Generative Adversarial Networks (GANs), which play an important role in these studies. This thesis focuses on improving minority class in tabular data. Using various open source imbalanced class dataset with different volumes, the study leverages various GAN models to augment minority class. The original and augmented datasets are then compared using statistical visualizations and Machine Learning (ML) model performances. In conclusion, the research highlights the important role of GANs in addressing data-related challenges in AI and demonstrates their effectiveness in rebalancing unstable datasets for improved model performance.
Benzer Tezler
- Veri madenciliğindeki sınıf dengesizliği sorununun giderilmesi
Alleviating the class imbalance problem in data mining
AKKENZHE SARMANOVA
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SONGÜL ALBAYRAK
- Multi-class classification methods utilizing Mahalanobis Taguchi system and a re-sampling approach for imbalanced data sets
Mahalanobis Taguchi sistemi ile çoklu sınıflandırma yöntemleri ve dengeli olmayan veri setleri için bir yeniden örnekleme yaklaşımı
DİLBER AYHAN
Yüksek Lisans
İngilizce
2009
Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik ÜniversitesiEndüstri Mühendisliği Bölümü
PROF. DR. GÜLSER KÖKSAL
- 1950'den günümüze Rum azınlık sorunları ve Fener Rum Patrikhanesi
Greek minority problems since 1950 and Fener Greek Patriarchate
SALTUK TARHAN
Yüksek Lisans
Türkçe
2006
TarihMarmara ÜniversitesiAtatürk İlkeleri ve İnkılap Tarihi Ana Bilim Dalı
PROF.DR. MAHMUT İHSAN ÖZGEN
- Kolektif öğrenmede sınıf dengesizliği problemi: Hastalık tanısı sınıflandırma
The class imbalance problem in ensemble learning: Disease diagnosis classification
SULTAN TURHAN
Yüksek Lisans
Türkçe
2019
BiyoistatistikMuğla Sıtkı Koçman Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. ERALP DOĞU
- Sınıf dengesiz büyük veride dolandırıcılık tespiti ve açıklanabilirlik
Fraud detection models in class imbalanced big data and explainability
DUYGU SİNANÇ TERZİ
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞEREF SAĞIROĞLU
DR. MUSTAFA UMUT DEMİREZEN