Geri Dön

Oy birliği ve özelleşmiş sınıflandırıcılar ile zararlı yazılım tespiti

Malware detection using consensus learning and specialized classifiers

  1. Tez No: 767921
  2. Yazar: SERCAN GÜLBURUN
  3. Danışmanlar: DOÇ. DR. MURAT DENER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgi Güvenliği Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 141

Özet

Dijital dünyaya yönelik tehditlerin en yaygın olarak karşılaşılan çeşitlerinden bir tanesi zararlı yazılımlardır. Bu tür yazılımlar, saldırganların kötücül amaçlarını gerçekleştirmek için kullandığı kodlardır. Mevcut ve yeni zararlı yazılımların bilgi varlıklarına zarar vermeden tespit edilmesi ve engellenmesi büyük önem arz etmektedir. Zararlı yazılımların tespit edilmesi için makine öğrenmesi yaklaşımları etkin bir şekilde kullanılmaktadır. Bu tez çalışmasında, denetimli ve denetimsiz öğrenme algoritmalarının birlikte kullanıldığı bir model sunulmaktadır. Sunulan model yüksek doğruluk ve f1 skoruyla mümkün olan en kısa sürede tahmin gerçekleştirmektedir. Modelin ilk aşamasında veriler K-ortalamalar algoritmasıyla kümelenmektedir. İkinci aşamasında ise ilgili küme için en iyi tahmin performansına sahip sınıflandırıcı kombinasyonu ile tahmin gerçekleştirilmektedir. İkinci aşamada kümelere göre en iyi sınıflandırıcılar seçilirken on makine öğrenme algoritmasının (Kernel Destek Vektör Makinesi, K-En Yakın Komşu, Naïve Bayes, Karar Ağacı, Rastgele Orman, Ekstra Gradian Yükseltme, Kategorik Yükseltme, Adaptif Yükseltme, Ekstra Ağaçlar ve Gradyan Yükseltme) üçlü kombinasyonu alınmaktadır. Seçilen üçlü sınıflandırıcı kombinasyonu iki kademede konumlandırılmaktadır. Tahmin süresi en yüksek olan sınıflandırıcının ikinci kademede olacak şekilde konumlandırılması sayesinde modelin tahmin süresi iyileştirilmektedir. Modelin tahmin performansı, BODMAS veri seti, Kaggle Zararlı Yazılım Tespiti veri seti, EMBER 2018 veri seti ve özgün veri setiyle, doğruluk ve f1 skoru değerleri kullanılarak sunulmaktadır. Model BODMAS veri setinde %99,74 doğruluk ve %99,77 f1 skoru, EMBER veri setinde %96,77 doğruluk ve %96,77 f1 skoru sağlamakta olup, aynı veri setleri kullanılarak gerçekleştirilen çalışmalardan daha iyi performans göstermektedir.

Özet (Çeviri)

One of the most common types of threats to the digital world is malicious software. This type of software is the code that attackers use to accomplish their malicious purposes. It is of great importance to detect and prevent existing and new malware without damaging information assets. Machine learning approaches are used effectively to detect malicious software. In the study, a model in which supervised and unsupervised learning algorithms used together is presented. The presented model makes predictions in the shortest possible time with high accuracy and f1 score. In the first stage of the model, the data are clustered with the K-means algorithm. In the second stage, the prediction is made with the combination of the classifier with the best prediction performance for the related cluster. In the second step, while choosing the best classifiers for the given clusters, a triple combination of ten machine learning algorithms (Kernel SVM, K-Nearest Neighbor, Naïve Bayes, Decision Tree, Random Forest, Extra Gradient Boosting, Categorical Boosting, Adaptive Boosting, Extra Trees, and Gradient Boosting) is used. The selected triple classifier combination is positioned in two stages. The prediction time of the model is improved by positioning the classifier with the highest prediction time to be in the second stage. The prediction performance of the model is presented using the BODMAS dataset, the Kaggle Malware Detection Dataset, EMBER 2018 dataset and the original dataset, and the accuracy and f1-score values are presented. The proposed methods has 99,74% accuracy and 99,77% f1 score for BODMAS dataset, and 96,77% accuracy and 96,77% f1 score for EMBER dataset. The proposed method's prediction performance is better than the rest of the studies in the literature in which BODMAS and EMBER datasets are used.

Benzer Tezler

  1. Üniversite seçmeli resim derslerinin günümüzdeki durumu

    Başlık çevirisi yok

    K. BERRİN TEKİNER

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Eğitim ve ÖğretimGazi Üniversitesi

    Uygulamalı Resim Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. SERAP ETİKE

  2. Avrupa Birliği'nin enerji politikasının şekillenmesinde Rusya faktörü: Bir aktör analizi

    The Russia factor in shaping the energy policy of the European Union: An actor analysis

    METE ALPKAN KARAHASANOĞLU

    Doktora

    Türkçe

    Türkçe

    2023

    Enerjiİstanbul Üniversitesi

    Avrupa Birliği Ana Bilim Dalı

    DOÇ. DR. SEVİM BUDAK

  3. ЕВРАЗИЯ ЭКОНОМИКАЛЫК БИРЛИГИ: КЫРГЫЗСТАН МИСАЛЫНДА

    Avrasya Ekonomik Birliği: Kırgızistan örneği / The Eurasian Economic Union: The Case Of Kyrgyzstan

    ŞAMİL BALCI

    Doktora

    Kırgızca

    Kırgızca

    2024

    EkonomiKırgızistan-Türkiye Manas Üniversitesi

    İktisat Ana Bilim Dalı

    PROF. DR. CUSUPCAN PİRİMBAYEV

  4. Construction risk management in developing countries

    Gelişmekte olan ülkelerde inşaat risk yönetimi

    TUNA ERATA

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. FATMA HEYECAN GİRİTLİ

  5. The role of taxation in European Union Sovereign debt crisis

    Vergilendirmenin Avrupa Birliği kamu borçları krizi üzerindeki etkisi

    SEMİHA ÖZTÜRK

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    EkonomiOrta Doğu Teknik Üniversitesi

    Avrupa Çalışmaları Ana Bilim Dalı

    DOÇ. DR. GÜL İPEK TUNÇ