Makine öğrenmesiyle windows kötücül yazılım tespiti

Malware detection on windows using machine learning

PDF İndir

Tez No: 944773
Yazar: TÜRKER SİVRİ
Danışmanlar: PROF. DR. MEHMET ŞİMŞEK
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Milli Savunma Üniversitesi
Enstitü: Alparslan Savunma Bilimleri ve Milli Güvenlik Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Siber Güvenlik Bilim Dalı
Sayfa Sayısı: 71

Özet

Bu tez çalışmasında, Windows işletim sistemi üzerinde çalışan taşınabilir çalıştırılabilir (Portable Executable, PE) dosyaların başlık alanlarından elde edilen statik özellikler kullanılarak, kötü amaçlı yazılımların imzaya dayalı yöntemlere gerek duyulmaksızın makine öğrenmesi algoritmalarıyla tespit edilmesi amaçlanmıştır. VirusShare üzerinden temin edilen 1406 zararlı örnek ile Windows sisteminden elde edilen 1188 zararsız örnek birleştirilerek toplam 2594 örnekten oluşan dengeli ve özgün bir veri seti oluşturulmuştur. Özellik mühendisliği sürecinde eksik veriler temizlenmiş, düşük varyansa sahip ve hedef değişkenle zayıf korelasyon gösteren değişkenler elenmiş, yüksek çoklu bağlantı içeren sütunlar ile sınıfa bağımlı dengesiz dağılım sergileyen sütunlar veri setinden çıkarılmıştır. Modelleme sürecinde veri; sırasıyla ham haliyle, hiperparametre ayarlaması yapılmış haliyle ve son olarak oy birliği sınıflandırma (voting classifier) modeli uygulanmış haliyle üç farklı aşamada değerlendirilmiştir. Eğitim süreci her aşamada 10 katlı çapraz doğrulama yöntemi ile yürütülmüş; nihai doğrulama daha önce eğitim sürecinde kullanılmamış olan doğrulama verisi üzerinde gerçekleştirilmiştir. Çalışmada, Lojistik Regresyon, Karar Ağacı, Rastgele Orman, Destek Vektör Makineleri, K-En Yakın Komşu, Naive Bayes, Gradient Boosting, XGBoost, LightGBM ve CatBoost olmak üzere on farklı sınıflandırma algoritması denenmiştir. Her algoritma üzerinde SMOTE, ADASYN ve RandomOverSampler gibi veri dengeleme yöntemleri ayrı ayrı uygulanmış; bu örnekleme tekniklerinin model başarımına etkisi analiz edilmiştir. Yapılan karşılaştırmalar sonucunda, en yüksek F1 skoruna sahip olan modelin ADASYN ile dengelenmiş eğitim verisi üzerinde, varsayılan parametrelerle eğitilmiş Rastgele Orman algoritması olduğu belirlenmiştir. Bu model, test verisi üzerinde 0.9875 F1 skoru ve 0.9946 ROC AUC skoru ile güçlü bir performans sergilemiştir. Sonuç olarak, bu tez çalışmasında önerilen makine öğrenmesi temelli kötücül yazılım tespit modeli, statik analiz yaklaşımı ile yüksek doğruluk ve F1 skoru değerleri üretmiştir. Modelin genellenebilirliği, kısmen dengeli veriyle çalışması, çok aşamalı yapılandırılması ve farklı veri senaryoları üzerinde test edilmesi; gerçek zamanlı sistemlere uyarlanabilir güvenli ve etkili bir çözüm sunduğunu ortaya koymuştur.

Özet (Çeviri)

In this thesis, it is aimed to detect malware with machine learning algorithms without the need for signature-based methods by using static features obtained from the header fields of files with PE (Portable Executable) running on the Windows operating system. A balanced and unique dataset consisting of 2594 samples was created by combining 1406 malicious samples obtained from VirusShare with 1188 harmless samples obtained from the Windows system. During the feature engineering process, missing data were cleaned, variables with low variance and poor correlation with the target variable were eliminated, columns with high multicollinearity and columns with unbalanced class-dependent distributions were removed from the dataset. In the modeling process, the data was evaluated in three different stages: raw, with hyperparameter tuning only and finally with the voting classifier model. The training process was carried out with a 10-fold cross-validation method at each stage; the final validation was carried out on the test data that had not been used in the training process before. In the study, ten different classification algorithms were tested: Logistic Regression, Decision Tree, Random Forest, Support Vector Machine, K-Nearest Neighbor, Naive Bayes, Gradient Boosting, XGBoost, LightGBM and CatBoost. Data balancing methods such as SMOTE, ADASYN and RandomOverSampler were applied separately on each algorithm and the effects of these sampling techniques on model performance were analyzed. As a result of the comparisons, it was determined that the model with the highest F1 score was the Random Forest algorithm trained with default parameters on the training data balanced with ADASYN. This model performed strongly on the test data with an F1 score of 0.9875 and a ROC AUC score of 0.9946. In conclusion, the machine learning based malware detection model proposed in this thesis produced high accuracy and F1 score values with the static analysis approach. The generalizability of the model, working with partially balanced data, its multi-stage configuration and testing on different data scenarios have shown that it provides a secure and effective solution that is adaptable to real-time systems.

Benzer Tezler

Tez No
947924
Machine learning-based prediction of FTIR spectral peaks for biomass characterization
Biyokütle karakterizasyonu için FTIR spektral pik noktalarının makine öğrenmesi tabanlı tahmini
FAHREDDİN TALHA SAĞİŞ
Yüksek Lisans
İngilizce
2025
Kimya Mühendisliği İstanbul Teknik Üniversitesi
Kimya Mühendisliği Ana Bilim Dalı
PROF. DR. SERDAR YAMAN
Tez No
758973
Zararlı yazılımların makine öğrenmesialgoritmaları ile tespit edilmesi
Detection of malwares by machine learning algorithms
FIRAT GÖKKİS
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. TAHSİN ÇETİNYOKUŞ
Tez No
962313
Analysis of wildfire effect on the amount of carbon monoxide emission using naive bayes
Naive bayes kullanılarak orman yangınının karbon monoksit emisyon miktarı üzerindeki etkisinin analizi
AZHURA NABILA FEBDA KURNIA
Yüksek Lisans
İngilizce
2025
İstatistik Yıldız Teknik Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. FİLİZ KARAMAN
Tez No
595347
Improved hilbert huang transform supported by machine learning algorithms for signal analysis
Sinyal analizi icin makine öğrenme algoritmaları ile desteklenen geliştirilmiş hilbert huang dönüşümü
HAMİD ERİNÇ KARATOPRAK
Doktora
İngilizce
2019
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektrik Mühendisliği Ana Bilim Dalı
PROF. DR. ŞAHİN SERHAT ŞEKER
Tez No
230847
11. sınıf öğrencilerinin Türkiye cumhuriyeti inkılap tarihi ve Atatürkçülük dersine karşı ilgi ve tutumlarının değerlendirilmesi
Evaluate the interest and attitudes of the students towards Turkish revolution history and Kemalism course
ARİF KONT
Yüksek Lisans
Türkçe
2008
Türk İnkılap Tarihi Karadeniz Teknik Üniversitesi
Ortaöğretim Sosyal Alanlar Eğitimi Ana Bilim Dalı
PROF. DR. MESUT ÇAPA

Geri Dön