Ensemble of feature selection models for malware datasets

Kötücül yazılım veri kümeleri için öznitelik seçim modellerinin topluluğu

PDF İndir

Tez No: 766000
Yazar: FARUK CÜREBAL
Danışmanlar: PROF. DR. HASAN DAĞ
Tez Türü: Yüksek Lisans
Konular: Bilim ve Teknoloji, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Kadir Has Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Yönetim Bilimleri Ana Bilim Dalı
Bilim Dalı: Siber Güvenlik Bilim Dalı
Sayfa Sayısı: 54

Özet

Teknolojinin gelişmesi hayatımızı kolaylaştırırken, ona olan bağımlılığımız da arttı. Siber suçlular, bu bağımlılıktan yararlanmak için çeşitli kötü amaçlı yazılım türleri geliştirmektedirler. Bu nedenle, güvenlik araştırmacıları ve olay müdahale ekiplerinin bunlara karşı önlem alması ve sistemlere verilebilecek zararları en aza indirmesi için kötü amaçlı yazılım sınıflandırması çok önemlidir. Bu çalışmada, popülerlik, etkinlik ve karmaşıklıklarını göz önünde bulundurarak yedi öznitelik seçim yöntemi seçtik: LOFO Importance (Leave One Feature Out), FRUFS (Feature Relevance based Unsupervised Feature Selection), AGRM (A General Framework for Auto-Weighted Feature Selection with Global Redundancy Minimization), MI (Mutual Information), Ki-kare testi (Chi-square test), mRMR (Minimum Redundancy and Maximum Relevance) ve BoostARoota. Bu çalışmadaki tüm deneyleri XGBoost (Extreme Gradient Boosting), RF (Random Forest ) ve HGB (Histogram- Based Gradient Boosting) makine öğrenimi sınıflandırıcıları ve doğruluk, F1-skor ve AUC-skor (ROC eğrisinin altında kalan alan) değerlendirme ölçütlerini kullanarak gerçekleştirdik. Bu öznitelik seçim yöntemlerinden ayarlanabilir parametre sahibi olanlarının parametre duyarlılıklarını, iki yüksek boyutlu veri kümesinde ölçtük: Microsoft Kötü Amaçlı Yazılım Tahmini veri kümesi ve API Çağrı Dizileri veri kümesi. Bu öznitellik seçim yöntemleri ve parametreleri: FRUFS (model-c, random-state), BoostARoota (clf, iters) ve LOFO'dur (model). LOFO algoritmasının sadece 'model' parametresi, ayarlanabilir parametreler arasında doğruluğu ve F1-skor değerlendirme metrik sonuçlarını önemli ölçüde etkiler. Daha sonra iki yüksek boyutlu kötü amaçlı yazılım veri kümesi kullanarak bu yedi öznitelik seçim algoritmasını karşılaştırdık: Microsoft Kötü Amaçlı Yazılım Tahmini veri kümesi ve API Import veri kümesi. Genel sonuçlar, AGRM'nin diğer öznitelik seçim yöntemlerinden daha iyi metrik sonuçlar elde ettiğini göstermektedir. AGRM'nin arkasında,FRUFS, LOFO, MI ve mRMR, farklı metriklerde en iyi sonuçları elde etti. MI ve mRMR ile karşılaştırıldığında, LOFO kötü amaçlı yazılım alanında çok daha az kullanılırken, FRUFS daha önce hiç kullanılmadı. AGRM'nin daha iyi performans göstermesi, FRUFS ve LOFO'nun diğer algoritmalardan daha yeni olması nedeniyle çalışmalarımızı bu üç öznitelik seçim yöntemiyle sürdürmeye karar verdik. Son olarak, en önemli öznitelikleri bulmak ve çok boyutluluğu azaltarak daha az öznitelikle çalışmak için seçilen üç öznitelik seçim yöntemini, LOFO, FRUFS ve AGRM'yi kombine ettik. Microsoft Kötü Amaçlı Yazılım Tahmini veri kümesinde ve API İçe Aktarma veri kümesinde bir yığınlama topluluğu kullanarak, XGBoost, RF ve HGB sınıflandırıcıları olmak üzere üç modelle bu öznitelik seçme yöntemlerinden üç öznitelik alt kümesini eğittik. Elde ettiğimiz dokuz tahmin olasılığından aynı bilgiyi içeren tahmin olasılıklarını korelasyon matrisinde bir eşik belirleyerek elimine ettik. Elde ettiğimiz son tahmin olasılıklarını SVM (Support Vector Machine) meta sınıflandırıcısına verdik. Modelimiz, iyi bilinen kötü amaçlı yazılım veri kümelerinden birinde (Microsoft Kötü Amaçlı Yazılım Tahmini veri kümesi) seçilen üç öznitelik seçim yönteminden ortalama 1,2% daha iyi sınıflandırma doğruluğu elde etti. API Import veri seti için modelimiz, LOFO ve FRUFS öznitelik seçim algoritmalarından ortalama 8% daha iyi sınıflandırma doğruluğu elde etti ve yetersiz RAM nedeniyle AGRM bu karşılaştırmada kullanılamadı. Bu nedenle önerilen modelimiz daha az öznitelikle eğitilmiş ve daha iyi sonuçlar elde edilmiştir.

Özet (Çeviri)

While the development of technology has made our lives easier, our dependence on it has also increased. Cybercriminals develop various types of malware to exploit this dependence. Thus, malware classification is essential for security researchers and incident response teams to take action against them and accelerate mitigation. In this study, we selected seven feature selection methods considering their popularity, effectiveness, and complexity: LOFO Importance (Leave One Feature Out) , FRUFS (Feature Relevance based Unsupervised Feature Selection), AGRM (A General Framework for Auto-Weighted Feature Selection with Global Redundancy Minimization), MI (Mutual Information), Chi-square test, mRMR (Minimum Redundancy and Maximum Relevance), BoostARoota. We performed all the experiments in this study using XGBoost (Extreme Gradient Boosting), RF (Random Forest), and HGB (Histogram-Based Gradient Boosting) machine learning classifiers and accuracy, F1-score, and AUC-score (Area under the ROC Curve) evaluation metrics. We measured the parameter sensitivities of these feature selection methods having adjustable parameters on two high-dimensional datasets: the Microsoft Malware Prediction dataset and the API Call Sequences dataset. These feature selection methods and parameters are FRUFS (model-c, random-state), BoostARoota (clf, iters), and LOFO (model). Only the 'model' parameter of the LOFO algorithm significantly affects the accuracy and F1-score evaluation metric results among the adjustable parameters. We then compared these seven feature selection algorithms using two high-dimensional malware datasets: the Microsoft Malware Prediction dataset and the API Import dataset. Overall results show that AGRM obtained better metric results than other feature selection methods. Behind AGRM, FRUFS, LOFO, MI, and mRMR achieved the best results in different metrics. Compared to MI and mRMR, LOFO is much less used in the malware domain, while FRUFS has not been used before. Since AGRM performs better and FRUFS and LOFO are newer than other algorithms, we decided to continue our work with these three feature selection methods. Finally, we combined three selected feature selection methods, LOFO Importance, FRUFS, and AGRM, to find the most important features and work with fewer features by reducing the multidimensionality. We trained three feature subsets from these feature selection methods with three models, XGBoost, RF, and HGB classifiers, using a stacking ensemble on the Microsoft Malware Prediction dataset and the API Import dataset. From the nine prediction probabilities we obtained, we eliminated the prediction probabilities containing the same information by setting a threshold in the correlation matrix. We gave the final prediction probabilities we obtained to the SVM (Support Vector Machine) meta classifier. Our model obtained an average of 1.2% better classification accuracy than the selected three feature selection methods on one of the well know malware datasets (Microsoft Malware Prediction dataset). For the API Import dataset, our model obtained an average 8% better classification accuracy than LOFO and FRUFS feature selection algorithms, and AGRM could not be used in that comparison due to insufficient RAM. Therefore, our proposed model was trained with fewer features and got better results.

Benzer Tezler

Tez No
522194
Malware detection for the android platform using machine learning techniques
Android platformu için makine öğrenmesi teknikleri kullanarak kötücül yazılım tespiti
GÖKÇER PEYNİRCİ
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yaşar Üniversitesi
Mühendislik Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KORHAN KARABULUT
DR. ÖĞR. ÜYESİ METE EMİNAĞAOĞLU
Tez No
836884
Analysis of machine learning and deep learning techniques for ransomware detection
Makine öğrenmesi ve derin öğrenme teknikleri kullanarak özellik seçimi tabanlı fidye yazılımı tespiti
ELAF TALIB ABDULJABBAR ABDULJABBAR
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karabük Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İSA AVCI
Tez No
918660
Adapting a deep learning model for kidney stone detection based on ensemble learning
Derin öğrenme modelinin topluluk öğrenimine dayalı olarak böbrek taşı tespiti için uyarlanması
MANAF ADNAN FARHOOD AL-JARAH
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Erciyes Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATMA ÖZGE ÖZKÖK
Tez No
958704
A comprehensive study on machine learning algorithms: Applying feature selection models to predict attrition rates in hr analytics
Makine öğrenmesi algpritmalari üzerine kapsamli bir çalişma: İk analitiğinde yipranma oranlarini tahmin etmek için değişken seçim medellerinin uygulanmasi
NACİ UFUK TOKER
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bahçeşehir Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERDEM ERZURUM
Tez No
929362
Koroner arter hastalığının makine öğrenmesi teknikleriyle teşhisi
Diagnosis of coronary artery disease using machine learning techniques
ŞÜKRÜ ALKAN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED KÜRŞAD UÇAR

Geri Dön