Dengesiz veri setlerinde aşırı örnekleme teknikleri ile makine öğrenmesi yaklaşımlarının karşılaştırılması

Comparison of machine learning approaches by using oversampling techniques on imbalanced datasets

PDF İndir

Tez No: 783821
Yazar: ÜMİT DİLBAZ
Danışmanlar: DR. ÖĞR. ÜYESİ MUSTAFA ÖZGÜR CİNGİZ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: Türkçe
Üniversite: Bursa Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Akıllı Mühendislik Sistemleri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 121

Özet

Endüstriyel bir tesisin faaliyetlerini kesintisiz bir şekilde devam ettirebilmesi için, o tesisi oluşturan ekipman ve sistemlerin kullanım ömürlerini uzatmak ve arızi duruşları engellemek amacıyla yapılan teknik ve idari işlerin tümüne bakım denir. Endüstriyel bakım faaliyetlerin yetersizliğinden ileri gelen plansız duruşların ve kazaların ortaya çıkardığı maliyetler işletmeler için ciddi riskler teşkil etmektedir. Birçok işletme geleneksel bakım yaklaşımları ile bu riskleri yönetmeye çalışsa da başarıları kısıtlı kalabilmektedir. Teknolojideki gelişmelerin ışığında bakım stratejilerini güncelleyen ve ileri taşıyan şirketler ilgili riskleri ve kayıpları daha etkin bir şekilde yönetme imkanına sahiptir. Sahadan ve ekipmanlar üzerinden toplanan verilerin analiz edilerek potansiyel arızaların henüz oluşmadan önce tahmin edilebilmesine ve buna yönelik yürütülen bakım faaliyetlerine kestirimci bakım denir. Nesnelerin interneti (Internet of Things – IoT) alanındaki gelişmeler ve siber fiziksel sistemlerin entegrasyonu ile endüstriyel ekipmanlar üzerinden verilerin gerçek zamanlı bir şekilde toplanması kolaylaşmıştır. Bu verilerin yapay zekâ algoritmaları ile işlenmesinden elde edilen tahmine dayalı analitik çıkarımlar ise kestirimci bakım stratejilerine yeni bir boyut kazandırmıştır. Kestirimci bakım ve arıza tespiti gibi problemlerde tahmine dayalı bir analitik model ortaya koymak istediğimizde, bu olayların doğası gereği dengesiz sınıf dağılımına sahip bir veri kümeleri karşımıza çıkar. Genellikle arıza olmayan bir durumu ifade eden gözlem sayısı, arıza durumunu temsil eden gözlemlerden çok fazladır. Dengesiz veri setlerinde yapay zekâ algoritmaları ile sınıflandırma yapmak önemli zorluklar içerir. Çünkü algoritmalar daha fazla sayıda gözlemin olduğu arıza olmama durumunu ifade eden bilgileri ezberleme eğiliminde olur. Bu sorun ise gerçek hayat uygulamasında algoritmalar ile arızaların tespit edilmesini zorlaştırır. Bu çalışmada, endüstriyel ortamdaki ekipmanlardan toplanmış verileri temsil eden 2 farklı veri seti üzerinde yapay zekâ algoritmaları kullanılarak bir sınıflandırma görevi gerçekleştirilmiştir. Dengesiz sınıf verisi dağılımına sahip olan her iki veri setinde, aşırı uyumlanma (overfitting) probleminin önüne geçebilmek için eğitim verileri üzerinde çeşitli aşırı örnekleme yöntemler ve hibrit yöntemler denenerek veri setleri dengeli hale getirilmiştir. Dengelenmiş veri setleri kullanılarak bağımsız (tekil) makine öğrenme algoritmaları, kollektif öğrenmeye dayalı makine öğrenmesi algoritmaları ve derin öğrenme algoritmaları ile oluşturulan modeller vasıtasıyla sınıflandırma yapılmıştır. Modellerin başarı performansları başta Cohen Kappa skoru olmak üzere, F1 skoru, duyarlılık ve doğruluk metrikleri açısından değerlendirilmiştir. Kolektif öğrenmeye dayalı makine öğrenmesi algoritmalarının her iki veri setinde de diğer algoritmalardan daha yüksek performans gösterdiği görülmüştür. Ayrıca veri seti dengeleme yöntemlerinin, kolektif öğrenmeye dayalı makine öğrenmesi algoritmalarının başarı performansına etkisi incelenmiştir. Farklı yöntemlerle dengelenen veri setlerinde kolektif öğrenme modellerinin performansları değişkenlik gösterirken, genel olarak rastgele örnekleme yöntemi ile dengeli hale getirilen veri setlerinde daha iyi performans elde edilmiştir. Yapılan bu tez çalışmasında, dengesiz veri setlerinde sınıflandırma görevi için model başarımına etki eden parametreler çok yönlü bakış açısıyla ortaya konulmuştur.

Özet (Çeviri)

Industrial maintenance covers all the technical and administrative operations to extend the lifetime of the equipments and avoid from unplanned system failures in order to ensure the manufacturing facilities uninterruptedly. The cost of unplanned breakdowns and accidents caused by insufficient maintenance operations brings serious risks for the industrial organizations. Although many facilities try to manage these risks with traditional maintenance approaches, their success may be limited. Companies that update and advance their maintenance strategies in the way of technological developments have the opportunity to manage related risks and losses more effectively. The analysis of data collected from sensors and equipment, allowing for the prediction of potential failures before they occur, and the maintenance activities conducted based on these predictions, is called predictive maintenance. With the developments in the Internet of Things (IoT) and the integration of cyber-physical systems, it has become easier to collect data in real time via industrial equipment. Analytic insights based on the processing of this data with artificial intelligence algorithms have brought a new dimension to predictive maintenance strategies. When we aim to devise an analytical model based on prediction for problems such as predictive maintenance and fault detection, we are faced with a dataset with an imbalanced class distribution, due to the nature of these events. The number of observations representing the non-faulty condition usually far exceeds the observations representing the faulty condition. Classifying imbalanced datasets using artificial intelligence algorithms poses significant challenges, as algorithms tend to overfit with the information representing the non-faulty condition, where there is a larger number of observations. This issue makes it difficult to detect failures using algorithms in real-life applications. In this study, artificial intelligence algorithms were used to perform a classification task on two different datasets representing data collected from equipment in an industrial environment. To prevent the problem of overfitting on both datasets with imbalanced class data distributions, various oversampling methods and hybrid methods were applied on the training data to balance the datasets. Classification was performed using models created with standalone machine learning algorithms, ensemble learning algorithms, and deep learning algorithms, using the balanced datasets. The performance of the models was evaluated in terms of the Cohen Kappa score, F1 score, recall, and accuracy. Ensemble learning algorithms carried out higher performance than the other algorithms in both datasets. The effect of the data balancing methods on the performance of ensemble learning algorithms was also analysed. The performance of the ensemble learning models varied in the datasets balanced using different methods, but generally performed better in datasets balanced using random sampling. In this thesis, the parameters affecting model performance for the classification task in imbalanced datasets were presented with a multidimensional perspective.

Benzer Tezler

Tez No
827867
Classification of abnormal respiratory sounds using deep learning techniques
Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması
AHAMADI ABDALLAH IDRISSE
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. OKTAY YILDIZ
Tez No
739944
Suç veri setini analiz etmek için makine öğreniminde örnekleme teknikleri ve uygulaması
Sampling techniques and application in machine learning in order to analyse crime dataset
SEVİL BAŞARIR
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Matematik Mühendisliği Ana Bilim Dalı
PROF. DR. AYLA ŞAYLI
Tez No
693042
Ağaç temelli makine öğrenmesi yöntemlerinin karşılaştırılması ve hastalık tanısı için uygulanması
Comparison of tree-based machine learning methods and its application to diagnosis
YUNUS EMRE CEYLAN
Yüksek Lisans
Türkçe
2021
İstatistik Muğla Sıtkı Koçman Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. ERALP DOĞU
Tez No
900268
Measuring and evaluating the maintainability of microservices
Mikroservislerin sürdürülebilirliğinin ölçülmesi ve değerlendirilmesi
RAHİME YILMAZ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FEZA BUZLUCA
Tez No
762182
Dengesiz bal peteği veri setinde sınıflandırma performansının analizi
Analysis of classification performance on imbalanced honeycomb dataset
SERKAN ÖZGÜN
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Selçuk Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET AKİF ŞAHMAN

Geri Dön