Geri Dön

An ensemble of pre-trained transformer models for imbalanced multiclass malware classification

Dengesı̇z sınıf dağılımına sahı̇p çok sınıflı kötücül yazılımların sınıflandırılmasında önceden eğı̇tı̇lmı̇ş dönüştürücü modellerı̇nı̇n topluluğu

  1. Tez No: 718678
  2. Yazar: FERHAT DEMİRKIRAN
  3. Danışmanlar: PROF. DR. HASAN DAĞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Kadir Has Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Yönetim Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Siber Güvenlik Bilim Dalı
  13. Sayfa Sayısı: 59

Özet

Kötü amaçlı yazılım ailelerinin sınıflandırılması, bu yazılımların cihazlara, bilgisayarlara veya sistemlere bulaştıktan sonra nasıl bir sürecin gerçekleşebileceğinin kapsamlı bir şekilde anlaşılabilmesi için çok önemlidir. Böylece, kötü amaçlı yazılımların belirlenmesi, siber güvenlik araştırmacılarının ve olay müdahele ekiplerinin kötü amaçlı yazılımlara karşı önlem almalarını ve olası hasarları asgari düzeyde tutmalarını sağlar. Kötü amaçlı yazılımlar tarafından yapılan API çağrı dizileri, kötü amaçlı yazılımların davranışını temsil ettiğinden, makine ve derin öğrenme modelleri tarafından kötü amaçlı yazılım sınıflandırması için yaygın olarak kullanılan özniteliklerdir ancak geleneksel makine ve derin öğrenme modelleri, API çağrıları arasındaki ilişkileri tespit etmekte yetersiz kalmaktadır. Geleneksel makine ve derin öğrenme modellerinin aksine, dönüştürücü tabanlı modeller, API çağrı dizilerini bir bütün olarak işleyip, çok başlı dikkat mekanizmaları ve konumsal gömmeler sayesinde API çağrıları arasındaki ilişkileri öğrenebilmektedir. Yaptığımız deneyler, bir dönüştürücü blok katmanına sahip bir dönüştürücü modelinin, yaygın olarak kullanılan ve temel bir mimari olan LSTM modelinin performansından üstün geldiğini göstermektedir. Önceden eğitilmiş dönüştürücü modellerinden BERT veya CANINE ise, yüksek derecede dengesiz bir sınıf dağılımına sahip kötü amaçlı yazılım ailelerinin sınıflandırılmasında F1 puanına ve AUC puanına göre daha iyi bir performans göstermektedir. Bizim önerdiğimiz, rastgele örnekleme toplama tekniğine dayalı, BERT veya CANINE modellerinin topluluk modeli olan RTF, değerlendirme metrikleri bazında, dört veri setinin üçünde en yüksek skorları elde etmektedir. Aynı zamanda yaygın olarak kullanılan veri setlerinden birinde RTF modeli 0,6149'luk en yüksek F1 puanına ulaşmaktadır.

Özet (Çeviri)

Classification of malware families is crucial for a comprehensive understanding of how they can infect devices, computers, or systems. Hence, malware identification enables security researchers and incident responders to take precautions against malware and accelerate mitigation. API call sequences made by malware are widely utilized features by machine and deep learning models for malware classification as these sequences represent the behavior of malware. However, traditional machine and deep learning models remain incapable of capturing sequence relationships among API calls. Unlike traditional machine and deep learning models, the transformer-based models process the sequences in whole and learn relationships among API calls due to multi-head attention mechanisms and positional embeddings. Our experiments demonstrate that the transformer model with one transformer block layer surpass the performance of the widely used base architecture, LSTM. Moreover, BERT or CANINE, the pre-trained transformer models, outperforms in classifying highly imbalanced malware families according to evaluation metrics: F1-score and AUC score. Furthermore, our proposed bagging-based random transformer forest (RTF) model, an ensemble of BERT or CANINE, reaches the state-of-the-art evaluation scores on the three out of four datasets, specifically it captures a state-of-the-art F1-score of 0.6149 on one of the commonly used benchmark dataset.

Benzer Tezler

  1. Bitki görüntülerindeki zararlı böceklerin derin öğrenme ile tanınması

    Deep learning-based recognition of insect pests in plant images

    ŞEVVAL EZGİ EZE

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SELCAN KAPLAN BERKAYA

  2. Biopsy cost reduction for early diagnosis of breast cancer using hybrid deep learning techniques

    Hibrit derin öğrenme teknikleri kullanılarak meme kanserinde erken teşhis için biyopsi maliyetinin düşürülmesi

    PINAR USKANER HEPSAĞ

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SELMA AYŞE ÖZEL

    PROF. DR. ADNAN YAZICI

  3. Multi-model and multi-stage learned image super-resolution

    Çoklu model ve çoklu eğitim ile öğrenilen süper çözünürlük

    CANSU KORKMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ZAFER DOĞAN

    PROF. DR. AHMET MURAT TEKALP

  4. Pedestrian detection for railway driver support systems

    Demiryolu sürücü destek sistemleri için yaya saptama

    TUĞÇE TOPRAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik MühendisliğiDokuz Eylül Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA ALPER SELVER

  5. Good features to correlate for visual tracking

    Korelasyon ile görsel takip için iyi öznitelikler

    ERHAN GÜNDOĞDU

    Doktora

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDULLAH AYDIN ALATAN