Geri Dön

Ensemble of feature selection models for malware datasets

Kötücül yazılım veri kümeleri için öznitelik seçim modellerinin topluluğu

  1. Tez No: 766000
  2. Yazar: FARUK CÜREBAL
  3. Danışmanlar: PROF. DR. HASAN DAĞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilim ve Teknoloji, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Kadir Has Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Yönetim Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Siber Güvenlik Bilim Dalı
  13. Sayfa Sayısı: 54

Özet

Teknolojinin gelişmesi hayatımızı kolaylaştırırken, ona olan bağımlılığımız da arttı. Siber suçlular, bu bağımlılıktan yararlanmak için çeşitli kötü amaçlı yazılım türleri geliştirmektedirler. Bu nedenle, güvenlik araştırmacıları ve olay müdahale ekiplerinin bunlara karşı önlem alması ve sistemlere verilebilecek zararları en aza indirmesi için kötü amaçlı yazılım sınıflandırması çok önemlidir. Bu çalışmada, popülerlik, etkinlik ve karmaşıklıklarını göz önünde bulundurarak yedi öznitelik seçim yöntemi seçtik: LOFO Importance (Leave One Feature Out), FRUFS (Feature Relevance based Unsupervised Feature Selection), AGRM (A General Framework for Auto-Weighted Feature Selection with Global Redundancy Minimization), MI (Mutual Information), Ki-kare testi (Chi-square test), mRMR (Minimum Redundancy and Maximum Relevance) ve BoostARoota. Bu çalışmadaki tüm deneyleri XGBoost (Extreme Gradient Boosting), RF (Random Forest ) ve HGB (Histogram- Based Gradient Boosting) makine öğrenimi sınıflandırıcıları ve doğruluk, F1-skor ve AUC-skor (ROC eğrisinin altında kalan alan) değerlendirme ölçütlerini kullanarak gerçekleştirdik. Bu öznitelik seçim yöntemlerinden ayarlanabilir parametre sahibi olanlarının parametre duyarlılıklarını, iki yüksek boyutlu veri kümesinde ölçtük: Microsoft Kötü Amaçlı Yazılım Tahmini veri kümesi ve API Çağrı Dizileri veri kümesi. Bu öznitellik seçim yöntemleri ve parametreleri: FRUFS (model-c, random-state), BoostARoota (clf, iters) ve LOFO'dur (model). LOFO algoritmasının sadece 'model' parametresi, ayarlanabilir parametreler arasında doğruluğu ve F1-skor değerlendirme metrik sonuçlarını önemli ölçüde etkiler. Daha sonra iki yüksek boyutlu kötü amaçlı yazılım veri kümesi kullanarak bu yedi öznitelik seçim algoritmasını karşılaştırdık: Microsoft Kötü Amaçlı Yazılım Tahmini veri kümesi ve API Import veri kümesi. Genel sonuçlar, AGRM'nin diğer öznitelik seçim yöntemlerinden daha iyi metrik sonuçlar elde ettiğini göstermektedir. AGRM'nin arkasında,FRUFS, LOFO, MI ve mRMR, farklı metriklerde en iyi sonuçları elde etti. MI ve mRMR ile karşılaştırıldığında, LOFO kötü amaçlı yazılım alanında çok daha az kullanılırken, FRUFS daha önce hiç kullanılmadı. AGRM'nin daha iyi performans göstermesi, FRUFS ve LOFO'nun diğer algoritmalardan daha yeni olması nedeniyle çalışmalarımızı bu üç öznitelik seçim yöntemiyle sürdürmeye karar verdik. Son olarak, en önemli öznitelikleri bulmak ve çok boyutluluğu azaltarak daha az öznitelikle çalışmak için seçilen üç öznitelik seçim yöntemini, LOFO, FRUFS ve AGRM'yi kombine ettik. Microsoft Kötü Amaçlı Yazılım Tahmini veri kümesinde ve API İçe Aktarma veri kümesinde bir yığınlama topluluğu kullanarak, XGBoost, RF ve HGB sınıflandırıcıları olmak üzere üç modelle bu öznitelik seçme yöntemlerinden üç öznitelik alt kümesini eğittik. Elde ettiğimiz dokuz tahmin olasılığından aynı bilgiyi içeren tahmin olasılıklarını korelasyon matrisinde bir eşik belirleyerek elimine ettik. Elde ettiğimiz son tahmin olasılıklarını SVM (Support Vector Machine) meta sınıflandırıcısına verdik. Modelimiz, iyi bilinen kötü amaçlı yazılım veri kümelerinden birinde (Microsoft Kötü Amaçlı Yazılım Tahmini veri kümesi) seçilen üç öznitelik seçim yönteminden ortalama 1,2% daha iyi sınıflandırma doğruluğu elde etti. API Import veri seti için modelimiz, LOFO ve FRUFS öznitelik seçim algoritmalarından ortalama 8% daha iyi sınıflandırma doğruluğu elde etti ve yetersiz RAM nedeniyle AGRM bu karşılaştırmada kullanılamadı. Bu nedenle önerilen modelimiz daha az öznitelikle eğitilmiş ve daha iyi sonuçlar elde edilmiştir.

Özet (Çeviri)

While the development of technology has made our lives easier, our dependence on it has also increased. Cybercriminals develop various types of malware to exploit this dependence. Thus, malware classification is essential for security researchers and incident response teams to take action against them and accelerate mitigation. In this study, we selected seven feature selection methods considering their popularity, effectiveness, and complexity: LOFO Importance (Leave One Feature Out) , FRUFS (Feature Relevance based Unsupervised Feature Selection), AGRM (A General Framework for Auto-Weighted Feature Selection with Global Redundancy Minimization), MI (Mutual Information), Chi-square test, mRMR (Minimum Redundancy and Maximum Relevance), BoostARoota. We performed all the experiments in this study using XGBoost (Extreme Gradient Boosting), RF (Random Forest), and HGB (Histogram-Based Gradient Boosting) machine learning classifiers and accuracy, F1-score, and AUC-score (Area under the ROC Curve) evaluation metrics. We measured the parameter sensitivities of these feature selection methods having adjustable parameters on two high-dimensional datasets: the Microsoft Malware Prediction dataset and the API Call Sequences dataset. These feature selection methods and parameters are FRUFS (model-c, random-state), BoostARoota (clf, iters), and LOFO (model). Only the 'model' parameter of the LOFO algorithm significantly affects the accuracy and F1-score evaluation metric results among the adjustable parameters. We then compared these seven feature selection algorithms using two high-dimensional malware datasets: the Microsoft Malware Prediction dataset and the API Import dataset. Overall results show that AGRM obtained better metric results than other feature selection methods. Behind AGRM, FRUFS, LOFO, MI, and mRMR achieved the best results in different metrics. Compared to MI and mRMR, LOFO is much less used in the malware domain, while FRUFS has not been used before. Since AGRM performs better and FRUFS and LOFO are newer than other algorithms, we decided to continue our work with these three feature selection methods. Finally, we combined three selected feature selection methods, LOFO Importance, FRUFS, and AGRM, to find the most important features and work with fewer features by reducing the multidimensionality. We trained three feature subsets from these feature selection methods with three models, XGBoost, RF, and HGB classifiers, using a stacking ensemble on the Microsoft Malware Prediction dataset and the API Import dataset. From the nine prediction probabilities we obtained, we eliminated the prediction probabilities containing the same information by setting a threshold in the correlation matrix. We gave the final prediction probabilities we obtained to the SVM (Support Vector Machine) meta classifier. Our model obtained an average of 1.2% better classification accuracy than the selected three feature selection methods on one of the well know malware datasets (Microsoft Malware Prediction dataset). For the API Import dataset, our model obtained an average 8% better classification accuracy than LOFO and FRUFS feature selection algorithms, and AGRM could not be used in that comparison due to insufficient RAM. Therefore, our proposed model was trained with fewer features and got better results.

Benzer Tezler

  1. Malware detection for the android platform using machine learning techniques

    Android platformu için makine öğrenmesi teknikleri kullanarak kötücül yazılım tespiti

    GÖKÇER PEYNİRCİ

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYaşar Üniversitesi

    Mühendislik Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KORHAN KARABULUT

    DR. ÖĞR. ÜYESİ METE EMİNAĞAOĞLU

  2. Analysis of machine learning and deep learning techniques for ransomware detection

    Makine öğrenmesi ve derin öğrenme teknikleri kullanarak özellik seçimi tabanlı fidye yazılımı tespiti

    ELAF TALIB ABDULJABBAR ABDULJABBAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İSA AVCI

  3. Development of new hybrid models for prediction of VO2MAX using machine learning methods combined with feature selection algorithms

    Nitelik seçme algoritmalarıyla birleştirilmiş makine öğrenme yöntemleri kullanılarak yeni hibrit VO2MAX tahmin modellerinin geliştirilmesi

    FATİH ABUT

    Doktora

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET FATİH AKAY

  4. Software effort estimation using ensemble of neural networks with associative memory

    Sinir ağı topluluğu ile çağrışımlı bellek kullanarak yazılım efor tahmini

    YİĞİT KÜLTÜR

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. AYŞE BAŞAR BENER

  5. Pankreas hastalıklarım tahmin etmek için makine öğreniminsı tabanlı bir yaklaşım

    A machine learning based approach to predicting pancreatic diseases

    DINA AMEER TAQI ZAINY

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin Üniversitesi

    Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELİM BUYRUKOĞLU