Geri Dön

Dengesiz veri setlerinde aşırı örnekleme teknikleri ile makine öğrenmesi yaklaşımlarının karşılaştırılması

Comparison of machine learning approaches by using oversampling techniques on imbalanced datasets

  1. Tez No: 783821
  2. Yazar: ÜMİT DİLBAZ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MUSTAFA ÖZGÜR CİNGİZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Bursa Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Akıllı Mühendislik Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 121

Özet

Endüstriyel bir tesisin faaliyetlerini kesintisiz bir şekilde devam ettirebilmesi için, o tesisi oluşturan ekipman ve sistemlerin kullanım ömürlerini uzatmak ve arızi duruşları engellemek amacıyla yapılan teknik ve idari işlerin tümüne bakım denir. Endüstriyel bakım faaliyetlerin yetersizliğinden ileri gelen plansız duruşların ve kazaların ortaya çıkardığı maliyetler işletmeler için ciddi riskler teşkil etmektedir. Birçok işletme geleneksel bakım yaklaşımları ile bu riskleri yönetmeye çalışsa da başarıları kısıtlı kalabilmektedir. Teknolojideki gelişmelerin ışığında bakım stratejilerini güncelleyen ve ileri taşıyan şirketler ilgili riskleri ve kayıpları daha etkin bir şekilde yönetme imkanına sahiptir. Sahadan ve ekipmanlar üzerinden toplanan verilerin analiz edilerek potansiyel arızaların henüz oluşmadan önce tahmin edilebilmesine ve buna yönelik yürütülen bakım faaliyetlerine kestirimci bakım denir. Nesnelerin interneti (Internet of Things – IoT) alanındaki gelişmeler ve siber fiziksel sistemlerin entegrasyonu ile endüstriyel ekipmanlar üzerinden verilerin gerçek zamanlı bir şekilde toplanması kolaylaşmıştır. Bu verilerin yapay zekâ algoritmaları ile işlenmesinden elde edilen tahmine dayalı analitik çıkarımlar ise kestirimci bakım stratejilerine yeni bir boyut kazandırmıştır. Kestirimci bakım ve arıza tespiti gibi problemlerde tahmine dayalı bir analitik model ortaya koymak istediğimizde, bu olayların doğası gereği dengesiz sınıf dağılımına sahip bir veri kümeleri karşımıza çıkar. Genellikle arıza olmayan bir durumu ifade eden gözlem sayısı, arıza durumunu temsil eden gözlemlerden çok fazladır. Dengesiz veri setlerinde yapay zekâ algoritmaları ile sınıflandırma yapmak önemli zorluklar içerir. Çünkü algoritmalar daha fazla sayıda gözlemin olduğu arıza olmama durumunu ifade eden bilgileri ezberleme eğiliminde olur. Bu sorun ise gerçek hayat uygulamasında algoritmalar ile arızaların tespit edilmesini zorlaştırır. Bu çalışmada, endüstriyel ortamdaki ekipmanlardan toplanmış verileri temsil eden 2 farklı veri seti üzerinde yapay zekâ algoritmaları kullanılarak bir sınıflandırma görevi gerçekleştirilmiştir. Dengesiz sınıf verisi dağılımına sahip olan her iki veri setinde, aşırı uyumlanma (overfitting) probleminin önüne geçebilmek için eğitim verileri üzerinde çeşitli aşırı örnekleme yöntemler ve hibrit yöntemler denenerek veri setleri dengeli hale getirilmiştir. Dengelenmiş veri setleri kullanılarak bağımsız (tekil) makine öğrenme algoritmaları, kollektif öğrenmeye dayalı makine öğrenmesi algoritmaları ve derin öğrenme algoritmaları ile oluşturulan modeller vasıtasıyla sınıflandırma yapılmıştır. Modellerin başarı performansları başta Cohen Kappa skoru olmak üzere, F1 skoru, duyarlılık ve doğruluk metrikleri açısından değerlendirilmiştir. Kolektif öğrenmeye dayalı makine öğrenmesi algoritmalarının her iki veri setinde de diğer algoritmalardan daha yüksek performans gösterdiği görülmüştür. Ayrıca veri seti dengeleme yöntemlerinin, kolektif öğrenmeye dayalı makine öğrenmesi algoritmalarının başarı performansına etkisi incelenmiştir. Farklı yöntemlerle dengelenen veri setlerinde kolektif öğrenme modellerinin performansları değişkenlik gösterirken, genel olarak rastgele örnekleme yöntemi ile dengeli hale getirilen veri setlerinde daha iyi performans elde edilmiştir. Yapılan bu tez çalışmasında, dengesiz veri setlerinde sınıflandırma görevi için model başarımına etki eden parametreler çok yönlü bakış açısıyla ortaya konulmuştur.

Özet (Çeviri)

Industrial maintenance covers all the technical and administrative operations to extend the lifetime of the equipments and avoid from unplanned system failures in order to ensure the manufacturing facilities uninterruptedly. The cost of unplanned breakdowns and accidents caused by insufficient maintenance operations brings serious risks for the industrial organizations. Although many facilities try to manage these risks with traditional maintenance approaches, their success may be limited. Companies that update and advance their maintenance strategies in the way of technological developments have the opportunity to manage related risks and losses more effectively. The analysis of data collected from sensors and equipment, allowing for the prediction of potential failures before they occur, and the maintenance activities conducted based on these predictions, is called predictive maintenance. With the developments in the Internet of Things (IoT) and the integration of cyber-physical systems, it has become easier to collect data in real time via industrial equipment. Analytic insights based on the processing of this data with artificial intelligence algorithms have brought a new dimension to predictive maintenance strategies. When we aim to devise an analytical model based on prediction for problems such as predictive maintenance and fault detection, we are faced with a dataset with an imbalanced class distribution, due to the nature of these events. The number of observations representing the non-faulty condition usually far exceeds the observations representing the faulty condition. Classifying imbalanced datasets using artificial intelligence algorithms poses significant challenges, as algorithms tend to overfit with the information representing the non-faulty condition, where there is a larger number of observations. This issue makes it difficult to detect failures using algorithms in real-life applications. In this study, artificial intelligence algorithms were used to perform a classification task on two different datasets representing data collected from equipment in an industrial environment. To prevent the problem of overfitting on both datasets with imbalanced class data distributions, various oversampling methods and hybrid methods were applied on the training data to balance the datasets. Classification was performed using models created with standalone machine learning algorithms, ensemble learning algorithms, and deep learning algorithms, using the balanced datasets. The performance of the models was evaluated in terms of the Cohen Kappa score, F1 score, recall, and accuracy. Ensemble learning algorithms carried out higher performance than the other algorithms in both datasets. The effect of the data balancing methods on the performance of ensemble learning algorithms was also analysed. The performance of the ensemble learning models varied in the datasets balanced using different methods, but generally performed better in datasets balanced using random sampling. In this thesis, the parameters affecting model performance for the classification task in imbalanced datasets were presented with a multidimensional perspective.

Benzer Tezler

  1. Classification of abnormal respiratory sounds using deep learning techniques

    Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması

    AHAMADI ABDALLAH IDRISSE

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. OKTAY YILDIZ

  2. Suç veri setini analiz etmek için makine öğreniminde örnekleme teknikleri ve uygulaması

    Sampling techniques and application in machine learning in order to analyse crime dataset

    SEVİL BAŞARIR

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYLA ŞAYLI

  3. Ağaç temelli makine öğrenmesi yöntemlerinin karşılaştırılması ve hastalık tanısı için uygulanması

    Comparison of tree-based machine learning methods and its application to diagnosis

    YUNUS EMRE CEYLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    İstatistikMuğla Sıtkı Koçman Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. ERALP DOĞU

  4. Measuring and evaluating the maintainability of microservices

    Mikroservislerin sürdürülebilirliğinin ölçülmesi ve değerlendirilmesi

    RAHİME YILMAZ

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FEZA BUZLUCA

  5. Dengesiz bal peteği veri setinde sınıflandırma performansının analizi

    Analysis of classification performance on imbalanced honeycomb dataset

    SERKAN ÖZGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET AKİF ŞAHMAN