Geri Dön

Veri kalitesinde eksik veri sorunlarının derin öğrenme yöntemi ile çözülmesi: Üretici çekişmeli ağlar ile bir uygulama

Solving missing data problems in data quality with deep learning method: An application with generative adversial networks

  1. Tez No: 638761
  2. Yazar: ŞEVHAT DOGER
  3. Danışmanlar: PROF. DR. OSMAN AVŞAR KURGUN
  4. Tez Türü: Yüksek Lisans
  5. Konular: İşletme, Business Administration
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Toplam Kalite Yönetimi Ana Bilim Dalı
  12. Bilim Dalı: Kalite Yönetimi Bilim Dalı
  13. Sayfa Sayısı: 122

Özet

Büyük veri analizi ve makine öğrenimi algoritmaları alanında yapılan devrim niteliğindeki gelişmeler, bankacılık, finansal hizmetler, varlık yönetimi, yiyecek-içecek ve e-ticaret gibi endüstrilerin iş stratejilerini değiştirmiştir. Bu işletmelerin veriye dayalı karar alma stratejileri rekabet edebilirliklerini artırırken bazı yeni problemlerle karşılaşmalarına neden olmuştur. İşletmelerin verileri kullanırken karşılaştığı en yaygın problemlerden biri veri setlerinde eksik verilerin bulunmasıdır. Eksik veri problemi veri kalitesini etkileyen önemli unsurlardan birisidir. Araştırmanın amacı, veri kalitesini etkileyen eksik veri problemlerini çözmek için uygun yönteminin seçilmesi ve şarap üreten işletmeler için eksik veri problemleri karşısında başvurabilecekleri bir rehber oluşturmaktır. Bu amaç doğrultusunda uygulama, şarap kalitesi isimli veri setinde eksik değerler oluşturularak elde edilen yeni veri seti üzerine yapılmıştır. Bu bağlamda türevlenebilir üretici model deneysel olarak eksik veri tamamlamada kullanılmıştır. Üretici çekişmeli atama ağları (GAIN- Generative Adversial Imputation Networks) türevlenebilir üretici modeller sınıfını temsil etmektedir. GAIN modelinin performansı geleneksel yöntemlerden karar ağaçları, çoklu atama, beklenti maksimizasyonu ile kıyaslanmıştır. Ayrıca GAIN modelinin wasserstein ayarıyla geliştirilmiş versiyonu wasserstein üretici çekişmeli atama ağları (WGAIN-Wasserstein Generative Adversial Imputation Networks) algoritması tanıtılmıştır. Algoritmanın değerlendirilmesi orijinal veri seti ile tamamlanmış veri seti değerleri arasındaki farklar hesaplanarak yapılmıştır. RMSE değerlendirme kriteri bunun için kullanılmıştır. Ampirik bulgular, GAIN algoritmasının özellikle WGAIN algoritmasının her eksiklik mekanizmasında ve %10' dan % 50 ye varan eksiklik oranlarında en başarılı performansı gösterdiği tespit edilmiştir. Şarap üreten işletme ölçeğinde eksik veri probleminin çözüm aşamaları anlatılmış en uygun yöntem olan WGAIN algoritmasının tercih edilmesi gerektiği belirtilmiştir. Analiz, eksik veri çözümleme yöntemleri arasında kullanımı Türkçe kaynaklarda nadir bulunan, GAIN yer verilmiş olmasından ötürü önemlidir.

Özet (Çeviri)

Revolutionary developments in the field of big data analysis and machine learning algorithms have changed the business strategies of industries such as banking, financial services, asset management, food and beverage and ecommerce. Data-driven decision-making strategies of these enterprises increased their competitiveness, causing them to face some new problems. One of the most common problems that businesses face when using data is missing data in data sets. Missing data problem is one of the important factors affecting data quality. The aim of the research is to choose the appropriate method to solve the missing data problems affecting the data quality and to create a guide for the wine producing enterprises that they can apply against the missing data problems. For this purpose, the application was made on the new data set obtained by creating missing values in the data set named wine quality. In this context, the differentiable generative model was used experimentally in completing missing data. The generative adversial imputation networks (GAIN) represent the class of differentiable generative models. The performance of the GAIN model was compared with traditional methods, Decision trees, multiple imputation, expectation maximization. In addition, the wasserstein generative advsersial imputation networks(WGAIN) algorithm, which was developed with the wasserstein setting of the GAIN model, was introduced. The evaluation of the algorithm was made by calculating the differences between the original data set and the completed data set values. The RMSE evaluation criterion was used for this. Empirical findings, GAIN algorithm, especially WGAIN algorithm has been found to show the most successful performance in each missing mechanism and missing rates from 10% to 50%. The solution stages of the missing data problem in the wine producing enterprise scale are explained and it is stated that the most suitable method, WGAIN algorithm should be preferred. Analysis is important since GAIN is included among the missing data analysis methods, which is rarely found in Turkish sources.

Benzer Tezler

  1. Mise en application de l'enseignement à distance sur Moodle: Etude d'un cours de grammaire pour de futurs professeurs de Français

    Moodle platformuyla uzaktan eğı̇tı̇m uygulaması: Fransızca öğretmen adaylarına yönelik dı̇l bı̇lgı̇sı̇ dersı̇ çerçevesinde çevrimiçi eğitim örneği

    NACİ SERHAT BAŞKAN

    Doktora

    Fransızca

    Fransızca

    2023

    Eğitim ve ÖğretimMarmara Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    PROF. DR. YAPRAK TÜRKÂN YÜCELSİN TAŞ

    PROF. DR. FABRICE BARTHELEMY

  2. Order dispatching via deep reinforcement learning

    Başlık çevirisi yok

    ERAY MERT KAVUK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYŞE TOSUN KÜHN

  3. A deep learning architecture for missing metabolite concentration prediction

    Eksik metabolit miktarı tahmini için bir derin öğrenme mimarisi

    SADİ ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALİ ÇAKMAK

  4. Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi

    Task based management of user queries for effective query suggestions

    NURULLAH ATEŞ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  5. Sürdürülebilir hava kalitesi için yapay zeka yöntemleri ile partiküler madde tahmininin modellenmesi

    Modeling particulate matter estimation with artificial intelligence methods for sustainable air quality

    SALİHA ÇELİKCAN BİLGİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Meteorolojiİstanbul Teknik Üniversitesi

    Meteoroloji Mühendisliği Ana Bilim Dalı

    PROF. DR. HÜSEYİN TOROS