Ağ saldırı veri kümelerinin sınıflandırılmasında dengeleme işleminin etkisi
The effect of balancing process on classifying intrusion detection dataset
- Tez No: 586933
- Danışmanlar: DR. ÖĞR. ÜYESİ ERSİN KAYA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Diferansiyel Evrim Algoritması, Örnekleme teknikleri, Saldırı Tespit, SMOTE, Sınıflandırma, Classification, Differential Evolution Algorithm, Intrusion Detection Systems, Sampling Technique, SMOTE
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Selçuk Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 62
Özet
Sınıflandırma, makine öğrenmesi ve veri madenciliği topluluklarında en önemli görevlerden biridir. Sınıflandırma işleminde sık karşılaşılan sık problemlerden biri veri setindeki sınıf dengesizliği problemidir. Dengesiz veri seti öncelikle iki veya daha fazla sınıfı içeren denetimli makine öğrenmesi bağlamıyla ilgilidir. Çoğu makine öğrenme tekniği için, küçük dengesizlikler problem değildir. İki sınıf varsa, o zaman dengeli veri her sınıf için %50 örnek anlamına gelir. Fakat bir sınıf için %60, diğer sınıf için %40 örnek varsa, herhangi bir önemli performans bozulmasına neden olmamaktadır. Veri setlerinde sınıf dengesizliği yüksek olduğunda sınıflandırma başarısı olumsuz olarak etkilenmektedir. Bu problemi ortadan kaldırmak için ve verilerin dengelenmesini sağlamak için örneklendirme yöntemlerinden biri kullanmaktadır. Örnekleme yöntemi, azınlık ve çoğunluk sınıfı boyutunu değiştirerek eğitim kümesindeki dengesizlik sınıfını ele alan bir yöntemdir. Sınıfları dengelemeye yönelik basit bir veri düzeyi yaklaşımı, bir sınıfı çoğaltma örneklenmesi ya da hemen hemen aynı olan çoğunluk sınıflarının örneklenmesi için orijinal veri kümesinden tekrarlamalı örnekler içerir. Bu stratejilerin her ikisi de herhangi bir öğrenme sisteminde uygulanabilir. Genel olarak, saldırı tespit ve benzeri veri kümelerinde sınıf dengesizliği bulunmaktadır. Bu tez çalışmasında, dengesiz veri kümeleri ele alınarak sentetik azaltma örnekleme tekniği (SMOTE) yöntemi ve diferansiyel evrim algoritması (DE) stratejileri ile bu veri kümelerini dengeli hale getirilip ve sınıflandırma başarıları arttırılmıştır. K-En Yakın Komşuları (K-NN), Destek Vektör Makinesini (SVM) ve C4.5 dengeli veri kümelerini sınıflandırmak için uygulanmıştır. Sonuç olarak, kullanılan dengesiz veri kümeleri dengeli hale geldikten sonra bu veri kümelerinin sınıflandırma başarılarının artması sağlanmıştır.
Özet (Çeviri)
Classification is one of the most important tasks in machine learning and data mining communities. One of the common problems encountered in the classification process is the class imbalance problem in the data set. The unbalanced data set is primarily relevant in the context of supervised machine learning involving two or more classes. For most machine learning techniques, small imbalances are not a problem. If there are two classes, then the balanced data means 50% sample for each class. However, if there is a 60% sample for one class and 40% for the other class, it does not cause any significant performance degradation. When class imbalanced is high in datasets, classification success is negatively affected. It uses one of the sampling methods to eliminate this problem and to stabilize the data. The sampling method is a method of addressing the imbalance class in the training set by changing the size of the minority and majority classes. A simple data-level approach to balancing classes includes iterative examples from the original data set for over-sampling of a class or for sampling almost identical majority classes. Both of these strategies can be implemented in any learning system. In general, there are unbalanced class in intrusion detection and similar data sets. In this thesis, unbalanced datasets are handled and synthetic minority sampling (SMOTE) method and differential evolution algorithm (DE) strategies are used to balance these datasets and increase classification accuracy. K-Nearest Neighbors (K-NN), Support Vector Machine (SVM) and C4.5 are applied to classify balanced data sets. As a result, the classification accuracy of the unbalanced data sets increased after the unbalanced data sets became balanced.
Benzer Tezler
- Machine learning approaches for internet of things based vehicle type classification and network anomaly detection
Nesnelerin interneti tabanlı araç tipi sınıflandırma ve ağ anomalisi tespiti için makine öğrenmesi yaklaşımları
BURAK KOLUKISA
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAbdullah Gül ÜniversitesiElektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. VEHBİ ÇAĞRI GÜNGÖR
- Kolektif makine öğrenmesi tabanlı ağ saldırı tespiti
Collective machine learning based network intrusion detection
ŞURA EMANET
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖNDER DEMİR
DR. ÖĞR. ÜYESİ GÖZDE KARATAŞ BAYDOĞMUŞ
- Iot based smart metering system in smart homes
Akıllı evlerde ıot tabanlı akıllı ölçüm sistemi
MOHAMMED HAMID MOHAMMED MOHAMMED
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ABDULLAHI ABDU IBRAHIM
- Ağ trafiğinin analizi, anomali tespiti ve değerlendirme
Analysis of network traffic, anomaly detection and evaluation
AKIN ASLAN
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DOÇ. DR. ENVER ÖZDEMİR
- Comparative study of intrusion detection system using machine learning
Başlık çevirisi yok
MAHMOOD IMAD ABDULKAREEM
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Prof. Dr. OSMAN NURİ UÇAN