Oy birliği ve özelleşmiş sınıflandırıcılar ile zararlı yazılım tespiti

Malware detection using consensus learning and specialized classifiers

PDF İndir

Tez No: 767921
Yazar: SERCAN GÜLBURUN
Danışmanlar: DOÇ. DR. MURAT DENER
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgi Güvenliği Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 141

Özet

Dijital dünyaya yönelik tehditlerin en yaygın olarak karşılaşılan çeşitlerinden bir tanesi zararlı yazılımlardır. Bu tür yazılımlar, saldırganların kötücül amaçlarını gerçekleştirmek için kullandığı kodlardır. Mevcut ve yeni zararlı yazılımların bilgi varlıklarına zarar vermeden tespit edilmesi ve engellenmesi büyük önem arz etmektedir. Zararlı yazılımların tespit edilmesi için makine öğrenmesi yaklaşımları etkin bir şekilde kullanılmaktadır. Bu tez çalışmasında, denetimli ve denetimsiz öğrenme algoritmalarının birlikte kullanıldığı bir model sunulmaktadır. Sunulan model yüksek doğruluk ve f1 skoruyla mümkün olan en kısa sürede tahmin gerçekleştirmektedir. Modelin ilk aşamasında veriler K-ortalamalar algoritmasıyla kümelenmektedir. İkinci aşamasında ise ilgili küme için en iyi tahmin performansına sahip sınıflandırıcı kombinasyonu ile tahmin gerçekleştirilmektedir. İkinci aşamada kümelere göre en iyi sınıflandırıcılar seçilirken on makine öğrenme algoritmasının (Kernel Destek Vektör Makinesi, K-En Yakın Komşu, Naïve Bayes, Karar Ağacı, Rastgele Orman, Ekstra Gradian Yükseltme, Kategorik Yükseltme, Adaptif Yükseltme, Ekstra Ağaçlar ve Gradyan Yükseltme) üçlü kombinasyonu alınmaktadır. Seçilen üçlü sınıflandırıcı kombinasyonu iki kademede konumlandırılmaktadır. Tahmin süresi en yüksek olan sınıflandırıcının ikinci kademede olacak şekilde konumlandırılması sayesinde modelin tahmin süresi iyileştirilmektedir. Modelin tahmin performansı, BODMAS veri seti, Kaggle Zararlı Yazılım Tespiti veri seti, EMBER 2018 veri seti ve özgün veri setiyle, doğruluk ve f1 skoru değerleri kullanılarak sunulmaktadır. Model BODMAS veri setinde %99,74 doğruluk ve %99,77 f1 skoru, EMBER veri setinde %96,77 doğruluk ve %96,77 f1 skoru sağlamakta olup, aynı veri setleri kullanılarak gerçekleştirilen çalışmalardan daha iyi performans göstermektedir.

Özet (Çeviri)

One of the most common types of threats to the digital world is malicious software. This type of software is the code that attackers use to accomplish their malicious purposes. It is of great importance to detect and prevent existing and new malware without damaging information assets. Machine learning approaches are used effectively to detect malicious software. In the study, a model in which supervised and unsupervised learning algorithms used together is presented. The presented model makes predictions in the shortest possible time with high accuracy and f1 score. In the first stage of the model, the data are clustered with the K-means algorithm. In the second stage, the prediction is made with the combination of the classifier with the best prediction performance for the related cluster. In the second step, while choosing the best classifiers for the given clusters, a triple combination of ten machine learning algorithms (Kernel SVM, K-Nearest Neighbor, Naïve Bayes, Decision Tree, Random Forest, Extra Gradient Boosting, Categorical Boosting, Adaptive Boosting, Extra Trees, and Gradient Boosting) is used. The selected triple classifier combination is positioned in two stages. The prediction time of the model is improved by positioning the classifier with the highest prediction time to be in the second stage. The prediction performance of the model is presented using the BODMAS dataset, the Kaggle Malware Detection Dataset, EMBER 2018 dataset and the original dataset, and the accuracy and f1-score values are presented. The proposed methods has 99,74% accuracy and 99,77% f1 score for BODMAS dataset, and 96,77% accuracy and 96,77% f1 score for EMBER dataset. The proposed method's prediction performance is better than the rest of the studies in the literature in which BODMAS and EMBER datasets are used.

Benzer Tezler

Tez No
32309
Üniversite seçmeli resim derslerinin günümüzdeki durumu
Başlık çevirisi yok
K. BERRİN TEKİNER
Yüksek Lisans
Türkçe
1992
Eğitim ve Öğretim Gazi Üniversitesi
Uygulamalı Resim Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. SERAP ETİKE
Tez No
804284
Avrupa Birliği'nin enerji politikasının şekillenmesinde Rusya faktörü: Bir aktör analizi
The Russia factor in shaping the energy policy of the European Union: An actor analysis
METE ALPKAN KARAHASANOĞLU
Doktora
Türkçe
2023
Enerji İstanbul Üniversitesi
Avrupa Birliği Ana Bilim Dalı
DOÇ. DR. SEVİM BUDAK
Tez No
859606
ЕВРАЗИЯ ЭКОНОМИКАЛЫК БИРЛИГИ: КЫРГЫЗСТАН МИСАЛЫНДА
Avrasya Ekonomik Birliği: Kırgızistan örneği / The Eurasian Economic Union: The Case Of Kyrgyzstan
ŞAMİL BALCI
Doktora
Kırgızca
2024
Ekonomi Kırgızistan-Türkiye Manas Üniversitesi
İktisat Ana Bilim Dalı
PROF. DR. CUSUPCAN PİRİMBAYEV
Tez No
496310
Construction risk management in developing countries
Gelişmekte olan ülkelerde inşaat risk yönetimi
TUNA ERATA
Yüksek Lisans
İngilizce
2017
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. FATMA HEYECAN GİRİTLİ
Tez No
508246
New challenges within the framework of the responsibility to protect: Terrorism and protection of populations
Koruma sorumluluğu çerçevesinde yeni zorluklar: Terörizm ve nüfusların korunması
ÇAĞLAR AÇIKYILDIZ
Yüksek Lisans
İngilizce
2018
Uluslararası İlişkiler Hacettepe Üniversitesi
Uluslararası İlişkiler Ana Bilim Dalı
DOÇ. DR. MİNE PINAR GÖZEN ERCAN

Geri Dön