Geri Dön

Dengesiz veri setlerinde sınıflandırma problemlerinin çözümünde melez yöntem uygulaması

Hybrid method application to solve classification problems in imbalanced datasets

  1. Tez No: 720846
  2. Yazar: MESTAN ŞAHİN PİR
  3. Danışmanlar: DOÇ. DR. DUYGU YILMAZ EROĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Bursa Uludağ Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 54

Özet

Günümüzde veri toplama teknolojilerinde yaşanan gelişmeler ile veriye bağlı karar destek yöntemlerine olan ilgi ve dolayısıyla veri madenciliğine ilgi arttı. Bu ilgi beraberinde farklı veri türlerinde veri madenciliği çalışmalarının yapılmasını sağladı. Günümüzde numerik ve kategorik verilerin yanında, görüntü tanıma, ses tanıma ve metin madenciliği gibi alanlarda yapılan çalışmalar ile çok sayıda bilimsel ve gerçek hayat çalışması gerçekleşti. Biyomedikal bilişim, örüntü tanıma, dolandırıcılık algılama, doğal dil işleme, tıbbi teşhis, yüz tanıma, metin sınıflandırma, arıza teşhis, anomali tespiti gibi başlıca gerçek hayat uygulama alanlarının yanında, otomom araçlar, Endüstri 4.0, insansız hava araçları gibi yeni teknolijilerde de çalışmaların sayısı arttı. Bu çalışmaların bir kısmında veri setlerinin dengesiz olması, diğer bir deyişle bir sınıf etiketinin belirgin oranda diğer sınıf/sınıflara baskın olması durumu ile karşılaşılmıştır. Bu durumda sınıflandırıcılar çoğunluk sınıfını doğru tahmin ettiği halde, azınlık verilerinde doğru tahminde bulunamamaktadır. Bu da kalite kontrol, tıbbi teşhis gibi çalışma alanlarında ciddi sorunlara yol açmaktadır. Çalışma kapsamında önerilen melez yöntem ile dengesiz verilerde sınıflandırma problemine çözüm önerilmiştir. Amaç dengesiz verilerde, aşırı örneklemenin yol açtığı aşırı uyum sorunun ve örnek azaltmanın yol açtığı değerli veri kaybının önüne geçilmesi ve başarılı sınıflandırma sonucu almaktır. İlk olarak dengesiz verinin sınıflandırılması ile ilgili yapılan çalışmalar incelendi. Sonrasında yapılan bu çalışmaların avantaj ve dezavantajlarından yararlanan yeni bir yöntem önerildi. Melez Yöntemin uygulandığı 8 veri seti farklı tip sınıflandırıcılar ile sınıflandırmış, sonuçlar dengesiz veri sınıflandırma problemlerinde sıkça kullanılan SMOTE yöntemi ile dengelenmiş veri setinin sonuçları ile karşılaştırılmıştır. Alınan sonuçlar önerilen yöntemin başarısını doğrulamıştır. Gerçek hayat verilerinde giriş kalite ve proses parametrelerinin iplik kopuşlarının tahmininde kullanılması ile yüksek doğru tahmin oranı ile ipliklerin dokumaya girmesini engelleyebilecek bir karar destek sistemi sunmuştur.

Özet (Çeviri)

Today, the improvements of collecting data technologies and decisions depending on the data-based consequently increased the interest of data mining recently. This interest lead to studies in different data types. These days, besides of numeric and categorical data, visual recognition, voice recognition, text mining etc. has developed many real life and science study. In addition to the main real-life application areas such as biomedical informatics, pattern recognition, fraud detection, natural language processing, medical diagnosis, face recognition, text classification, fault diagnosis, anomaly detection, the number of studies in new technologies such as autonomous vehicles, Industry 4.0, unmanned aerial vehicles it increased. In some of these studies, it was encountered that the data sets were unbalanced, in other words, one class label was significantly dominant over the other class/classes. In this case, although the classifiers predict the majority class correctly but they cannot predict the minority class correctly. This makes serious problem on quality check, medical diagnossis etc. In this study, hybrid method proposed a solution the classification problem in imbalanced datasets. The aim is to prevent the overfitting problem caused by oversampling and valuable data loss caused by undersampling in imbalanced data, and to obtain successful classification results. Firstly, the studies on the classification of imbalanced data were examined. Then another method was proposed considering all the studies advantages and disadvantages. Hybrid method was applied to eight datasets, then these datasets were classified with different types of classifiers, and the results were compared with the results of the balanced data set with the SMOTE method, which is frequently used in imbalanced data classification problems. The obtained results confirmed the success of the proposed method. By using the input quality and process parameters in the real yarn data to predict yarn breaks, has presented a decision support system that can prevent yarns from entering the weaving with a high correct prediction rate.

Benzer Tezler

  1. Dengesiz veri setlerinde sınıflandırma performansını etkileyen yaklaşımların incelenmesi

    Examination of approaches affecting classification performance in imbalanced data sets

    SALİHA DEMİRSÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    BiyoistatistikSelçuk Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HARUN YONAR

  2. Yapay sinir ağlarının dengesiz veri setlerinin sınıflandırılmasının iyileştirilmesi

    Improvement of classification of unbalanced datasets of neural networks

    SİMAY UĞUR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Mühendislik BilimleriDokuz Eylül Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. SEDAT ÇAPAR

  3. Exploiting clustering patterns in training sets to improve classification performance of fully connected layers

    Tam bağlantılı katmanların sınıflandırma performansını iyileştirmek için eğitim setlerindeki kümeleme örüntülerinden faydalanma

    TOLGA AHMET KALAYCI

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. UMUT ASAN

  4. Train set complexity tunning for imbalance learning

    Dengesiz öğrenme için eğitim seti karmaşıklığının ayarlanması

    MEHMET ULAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. MEHMET ALİ ERGÜN

  5. Kayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılması

    Classification with ensemble methods on missing and imbalanced data

    ENİS GÜMÜŞTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. AYÇA ÇAKMAK PEHLİVANLI