Geri Dön

Makine öğrenmesiyle windows kötücül yazılım tespiti

Malware detection on windows using machine learning

  1. Tez No: 944773
  2. Yazar: TÜRKER SİVRİ
  3. Danışmanlar: PROF. DR. MEHMET ŞİMŞEK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Milli Savunma Üniversitesi
  10. Enstitü: Alparslan Savunma Bilimleri ve Milli Güvenlik Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Siber Güvenlik Bilim Dalı
  13. Sayfa Sayısı: 71

Özet

Bu tez çalışmasında, Windows işletim sistemi üzerinde çalışan taşınabilir çalıştırılabilir (Portable Executable, PE) dosyaların başlık alanlarından elde edilen statik özellikler kullanılarak, kötü amaçlı yazılımların imzaya dayalı yöntemlere gerek duyulmaksızın makine öğrenmesi algoritmalarıyla tespit edilmesi amaçlanmıştır. VirusShare üzerinden temin edilen 1406 zararlı örnek ile Windows sisteminden elde edilen 1188 zararsız örnek birleştirilerek toplam 2594 örnekten oluşan dengeli ve özgün bir veri seti oluşturulmuştur. Özellik mühendisliği sürecinde eksik veriler temizlenmiş, düşük varyansa sahip ve hedef değişkenle zayıf korelasyon gösteren değişkenler elenmiş, yüksek çoklu bağlantı içeren sütunlar ile sınıfa bağımlı dengesiz dağılım sergileyen sütunlar veri setinden çıkarılmıştır. Modelleme sürecinde veri; sırasıyla ham haliyle, hiperparametre ayarlaması yapılmış haliyle ve son olarak oy birliği sınıflandırma (voting classifier) modeli uygulanmış haliyle üç farklı aşamada değerlendirilmiştir. Eğitim süreci her aşamada 10 katlı çapraz doğrulama yöntemi ile yürütülmüş; nihai doğrulama daha önce eğitim sürecinde kullanılmamış olan doğrulama verisi üzerinde gerçekleştirilmiştir. Çalışmada, Lojistik Regresyon, Karar Ağacı, Rastgele Orman, Destek Vektör Makineleri, K-En Yakın Komşu, Naive Bayes, Gradient Boosting, XGBoost, LightGBM ve CatBoost olmak üzere on farklı sınıflandırma algoritması denenmiştir. Her algoritma üzerinde SMOTE, ADASYN ve RandomOverSampler gibi veri dengeleme yöntemleri ayrı ayrı uygulanmış; bu örnekleme tekniklerinin model başarımına etkisi analiz edilmiştir. Yapılan karşılaştırmalar sonucunda, en yüksek F1 skoruna sahip olan modelin ADASYN ile dengelenmiş eğitim verisi üzerinde, varsayılan parametrelerle eğitilmiş Rastgele Orman algoritması olduğu belirlenmiştir. Bu model, test verisi üzerinde 0.9875 F1 skoru ve 0.9946 ROC AUC skoru ile güçlü bir performans sergilemiştir. Sonuç olarak, bu tez çalışmasında önerilen makine öğrenmesi temelli kötücül yazılım tespit modeli, statik analiz yaklaşımı ile yüksek doğruluk ve F1 skoru değerleri üretmiştir. Modelin genellenebilirliği, kısmen dengeli veriyle çalışması, çok aşamalı yapılandırılması ve farklı veri senaryoları üzerinde test edilmesi; gerçek zamanlı sistemlere uyarlanabilir güvenli ve etkili bir çözüm sunduğunu ortaya koymuştur.

Özet (Çeviri)

In this thesis, it is aimed to detect malware with machine learning algorithms without the need for signature-based methods by using static features obtained from the header fields of files with PE (Portable Executable) running on the Windows operating system. A balanced and unique dataset consisting of 2594 samples was created by combining 1406 malicious samples obtained from VirusShare with 1188 harmless samples obtained from the Windows system. During the feature engineering process, missing data were cleaned, variables with low variance and poor correlation with the target variable were eliminated, columns with high multicollinearity and columns with unbalanced class-dependent distributions were removed from the dataset. In the modeling process, the data was evaluated in three different stages: raw, with hyperparameter tuning only and finally with the voting classifier model. The training process was carried out with a 10-fold cross-validation method at each stage; the final validation was carried out on the test data that had not been used in the training process before. In the study, ten different classification algorithms were tested: Logistic Regression, Decision Tree, Random Forest, Support Vector Machine, K-Nearest Neighbor, Naive Bayes, Gradient Boosting, XGBoost, LightGBM and CatBoost. Data balancing methods such as SMOTE, ADASYN and RandomOverSampler were applied separately on each algorithm and the effects of these sampling techniques on model performance were analyzed. As a result of the comparisons, it was determined that the model with the highest F1 score was the Random Forest algorithm trained with default parameters on the training data balanced with ADASYN. This model performed strongly on the test data with an F1 score of 0.9875 and a ROC AUC score of 0.9946. In conclusion, the machine learning based malware detection model proposed in this thesis produced high accuracy and F1 score values with the static analysis approach. The generalizability of the model, working with partially balanced data, its multi-stage configuration and testing on different data scenarios have shown that it provides a secure and effective solution that is adaptable to real-time systems.

Benzer Tezler

  1. Machine learning-based prediction of FTIR spectral peaks for biomass characterization

    Biyokütle karakterizasyonu için FTIR spektral pik noktalarının makine öğrenmesi tabanlı tahmini

    FAHREDDİN TALHA SAĞİŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Kimya Mühendisliğiİstanbul Teknik Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. SERDAR YAMAN

  2. Zararlı yazılımların makine öğrenmesialgoritmaları ile tespit edilmesi

    Detection of malwares by machine learning algorithms

    FIRAT GÖKKİS

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. TAHSİN ÇETİNYOKUŞ

  3. Analysis of wildfire effect on the amount of carbon monoxide emission using naive bayes

    Naive bayes kullanılarak orman yangınının karbon monoksit emisyon miktarı üzerindeki etkisinin analizi

    AZHURA NABILA FEBDA KURNIA

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    İstatistikYıldız Teknik Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. FİLİZ KARAMAN

  4. Improved hilbert huang transform supported by machine learning algorithms for signal analysis

    Sinyal analizi icin makine öğrenme algoritmaları ile desteklenen geliştirilmiş hilbert huang dönüşümü

    HAMİD ERİNÇ KARATOPRAK

    Doktora

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞAHİN SERHAT ŞEKER

  5. 11. sınıf öğrencilerinin Türkiye cumhuriyeti inkılap tarihi ve Atatürkçülük dersine karşı ilgi ve tutumlarının değerlendirilmesi

    Evaluate the interest and attitudes of the students towards Turkish revolution history and Kemalism course

    ARİF KONT

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    Türk İnkılap TarihiKaradeniz Teknik Üniversitesi

    Ortaöğretim Sosyal Alanlar Eğitimi Ana Bilim Dalı

    PROF. DR. MESUT ÇAPA