Veri kalitesinde eksik veri sorunlarının derin öğrenme yöntemi ile çözülmesi: Üretici çekişmeli ağlar ile bir uygulama

Solving missing data problems in data quality with deep learning method: An application with generative adversial networks

PDF İndir

Tez No: 638761
Yazar: ŞEVHAT DOGER
Danışmanlar: PROF. DR. OSMAN AVŞAR KURGUN
Tez Türü: Yüksek Lisans
Konular: İşletme, Business Administration
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: Türkçe
Üniversite: Dokuz Eylül Üniversitesi
Enstitü: Sosyal Bilimler Enstitüsü
Ana Bilim Dalı: Toplam Kalite Yönetimi Ana Bilim Dalı
Bilim Dalı: Kalite Yönetimi Bilim Dalı
Sayfa Sayısı: 122

Özet

Büyük veri analizi ve makine öğrenimi algoritmaları alanında yapılan devrim niteliğindeki gelişmeler, bankacılık, finansal hizmetler, varlık yönetimi, yiyecek-içecek ve e-ticaret gibi endüstrilerin iş stratejilerini değiştirmiştir. Bu işletmelerin veriye dayalı karar alma stratejileri rekabet edebilirliklerini artırırken bazı yeni problemlerle karşılaşmalarına neden olmuştur. İşletmelerin verileri kullanırken karşılaştığı en yaygın problemlerden biri veri setlerinde eksik verilerin bulunmasıdır. Eksik veri problemi veri kalitesini etkileyen önemli unsurlardan birisidir. Araştırmanın amacı, veri kalitesini etkileyen eksik veri problemlerini çözmek için uygun yönteminin seçilmesi ve şarap üreten işletmeler için eksik veri problemleri karşısında başvurabilecekleri bir rehber oluşturmaktır. Bu amaç doğrultusunda uygulama, şarap kalitesi isimli veri setinde eksik değerler oluşturularak elde edilen yeni veri seti üzerine yapılmıştır. Bu bağlamda türevlenebilir üretici model deneysel olarak eksik veri tamamlamada kullanılmıştır. Üretici çekişmeli atama ağları (GAIN- Generative Adversial Imputation Networks) türevlenebilir üretici modeller sınıfını temsil etmektedir. GAIN modelinin performansı geleneksel yöntemlerden karar ağaçları, çoklu atama, beklenti maksimizasyonu ile kıyaslanmıştır. Ayrıca GAIN modelinin wasserstein ayarıyla geliştirilmiş versiyonu wasserstein üretici çekişmeli atama ağları (WGAIN-Wasserstein Generative Adversial Imputation Networks) algoritması tanıtılmıştır. Algoritmanın değerlendirilmesi orijinal veri seti ile tamamlanmış veri seti değerleri arasındaki farklar hesaplanarak yapılmıştır. RMSE değerlendirme kriteri bunun için kullanılmıştır. Ampirik bulgular, GAIN algoritmasının özellikle WGAIN algoritmasının her eksiklik mekanizmasında ve %10' dan % 50 ye varan eksiklik oranlarında en başarılı performansı gösterdiği tespit edilmiştir. Şarap üreten işletme ölçeğinde eksik veri probleminin çözüm aşamaları anlatılmış en uygun yöntem olan WGAIN algoritmasının tercih edilmesi gerektiği belirtilmiştir. Analiz, eksik veri çözümleme yöntemleri arasında kullanımı Türkçe kaynaklarda nadir bulunan, GAIN yer verilmiş olmasından ötürü önemlidir.

Özet (Çeviri)

Revolutionary developments in the field of big data analysis and machine learning algorithms have changed the business strategies of industries such as banking, financial services, asset management, food and beverage and ecommerce. Data-driven decision-making strategies of these enterprises increased their competitiveness, causing them to face some new problems. One of the most common problems that businesses face when using data is missing data in data sets. Missing data problem is one of the important factors affecting data quality. The aim of the research is to choose the appropriate method to solve the missing data problems affecting the data quality and to create a guide for the wine producing enterprises that they can apply against the missing data problems. For this purpose, the application was made on the new data set obtained by creating missing values in the data set named wine quality. In this context, the differentiable generative model was used experimentally in completing missing data. The generative adversial imputation networks (GAIN) represent the class of differentiable generative models. The performance of the GAIN model was compared with traditional methods, Decision trees, multiple imputation, expectation maximization. In addition, the wasserstein generative advsersial imputation networks(WGAIN) algorithm, which was developed with the wasserstein setting of the GAIN model, was introduced. The evaluation of the algorithm was made by calculating the differences between the original data set and the completed data set values. The RMSE evaluation criterion was used for this. Empirical findings, GAIN algorithm, especially WGAIN algorithm has been found to show the most successful performance in each missing mechanism and missing rates from 10% to 50%. The solution stages of the missing data problem in the wine producing enterprise scale are explained and it is stated that the most suitable method, WGAIN algorithm should be preferred. Analysis is important since GAIN is included among the missing data analysis methods, which is rarely found in Turkish sources.

Benzer Tezler

Tez No
841806
Mise en application de l'enseignement à distance sur Moodle: Etude d'un cours de grammaire pour de futurs professeurs de Français
Moodle platformuyla uzaktan eğı̇tı̇m uygulaması: Fransızca öğretmen adaylarına yönelik dı̇l bı̇lgı̇sı̇ dersı̇ çerçevesinde çevrimiçi eğitim örneği
NACİ SERHAT BAŞKAN
Doktora
Fransızca
2023
Eğitim ve Öğretim Marmara Üniversitesi
Yabancı Diller Eğitimi Ana Bilim Dalı
PROF. DR. YAPRAK TÜRKÂN YÜCELSİN TAŞ
PROF. DR. FABRICE BARTHELEMY
Tez No
712817
Order dispatching via deep reinforcement learning
Başlık çevirisi yok
ERAY MERT KAVUK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYŞE TOSUN KÜHN
Tez No
887071
A deep learning architecture for missing metabolite concentration prediction
Eksik metabolit miktarı tahmini için bir derin öğrenme mimarisi
SADİ ÇELİK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALİ ÇAKMAK
Tez No
899096
Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi
Task based management of user queries for effective query suggestions
NURULLAH ATEŞ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN
Tez No
846099
Sürdürülebilir hava kalitesi için yapay zeka yöntemleri ile partiküler madde tahmininin modellenmesi
Modeling particulate matter estimation with artificial intelligence methods for sustainable air quality
SALİHA ÇELİKCAN BİLGİN
Yüksek Lisans
Türkçe
2023
Meteoroloji İstanbul Teknik Üniversitesi
Meteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. HÜSEYİN TOROS

Geri Dön