An ensemble of pre-trained transformer models for imbalanced multiclass malware classification
Dengesı̇z sınıf dağılımına sahı̇p çok sınıflı kötücül yazılımların sınıflandırılmasında önceden eğı̇tı̇lmı̇ş dönüştürücü modellerı̇nı̇n topluluğu
- Tez No: 718678
- Danışmanlar: PROF. DR. HASAN DAĞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Kadir Has Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Yönetim Bilimleri Ana Bilim Dalı
- Bilim Dalı: Siber Güvenlik Bilim Dalı
- Sayfa Sayısı: 59
Özet
Kötü amaçlı yazılım ailelerinin sınıflandırılması, bu yazılımların cihazlara, bilgisayarlara veya sistemlere bulaştıktan sonra nasıl bir sürecin gerçekleşebileceğinin kapsamlı bir şekilde anlaşılabilmesi için çok önemlidir. Böylece, kötü amaçlı yazılımların belirlenmesi, siber güvenlik araştırmacılarının ve olay müdahele ekiplerinin kötü amaçlı yazılımlara karşı önlem almalarını ve olası hasarları asgari düzeyde tutmalarını sağlar. Kötü amaçlı yazılımlar tarafından yapılan API çağrı dizileri, kötü amaçlı yazılımların davranışını temsil ettiğinden, makine ve derin öğrenme modelleri tarafından kötü amaçlı yazılım sınıflandırması için yaygın olarak kullanılan özniteliklerdir ancak geleneksel makine ve derin öğrenme modelleri, API çağrıları arasındaki ilişkileri tespit etmekte yetersiz kalmaktadır. Geleneksel makine ve derin öğrenme modellerinin aksine, dönüştürücü tabanlı modeller, API çağrı dizilerini bir bütün olarak işleyip, çok başlı dikkat mekanizmaları ve konumsal gömmeler sayesinde API çağrıları arasındaki ilişkileri öğrenebilmektedir. Yaptığımız deneyler, bir dönüştürücü blok katmanına sahip bir dönüştürücü modelinin, yaygın olarak kullanılan ve temel bir mimari olan LSTM modelinin performansından üstün geldiğini göstermektedir. Önceden eğitilmiş dönüştürücü modellerinden BERT veya CANINE ise, yüksek derecede dengesiz bir sınıf dağılımına sahip kötü amaçlı yazılım ailelerinin sınıflandırılmasında F1 puanına ve AUC puanına göre daha iyi bir performans göstermektedir. Bizim önerdiğimiz, rastgele örnekleme toplama tekniğine dayalı, BERT veya CANINE modellerinin topluluk modeli olan RTF, değerlendirme metrikleri bazında, dört veri setinin üçünde en yüksek skorları elde etmektedir. Aynı zamanda yaygın olarak kullanılan veri setlerinden birinde RTF modeli 0,6149'luk en yüksek F1 puanına ulaşmaktadır.
Özet (Çeviri)
Classification of malware families is crucial for a comprehensive understanding of how they can infect devices, computers, or systems. Hence, malware identification enables security researchers and incident responders to take precautions against malware and accelerate mitigation. API call sequences made by malware are widely utilized features by machine and deep learning models for malware classification as these sequences represent the behavior of malware. However, traditional machine and deep learning models remain incapable of capturing sequence relationships among API calls. Unlike traditional machine and deep learning models, the transformer-based models process the sequences in whole and learn relationships among API calls due to multi-head attention mechanisms and positional embeddings. Our experiments demonstrate that the transformer model with one transformer block layer surpass the performance of the widely used base architecture, LSTM. Moreover, BERT or CANINE, the pre-trained transformer models, outperforms in classifying highly imbalanced malware families according to evaluation metrics: F1-score and AUC score. Furthermore, our proposed bagging-based random transformer forest (RTF) model, an ensemble of BERT or CANINE, reaches the state-of-the-art evaluation scores on the three out of four datasets, specifically it captures a state-of-the-art F1-score of 0.6149 on one of the commonly used benchmark dataset.
Benzer Tezler
- Bitki görüntülerindeki zararlı böceklerin derin öğrenme ile tanınması
Deep learning-based recognition of insect pests in plant images
ŞEVVAL EZGİ EZE
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SELCAN KAPLAN BERKAYA
- Biopsy cost reduction for early diagnosis of breast cancer using hybrid deep learning techniques
Hibrit derin öğrenme teknikleri kullanılarak meme kanserinde erken teşhis için biyopsi maliyetinin düşürülmesi
PINAR USKANER HEPSAĞ
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SELMA AYŞE ÖZEL
PROF. DR. ADNAN YAZICI
- Multi-model and multi-stage learned image super-resolution
Çoklu model ve çoklu eğitim ile öğrenilen süper çözünürlük
CANSU KORKMAZ
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ZAFER DOĞAN
PROF. DR. AHMET MURAT TEKALP
- Pedestrian detection for railway driver support systems
Demiryolu sürücü destek sistemleri için yaya saptama
TUĞÇE TOPRAK
Yüksek Lisans
İngilizce
2018
Elektrik ve Elektronik MühendisliğiDokuz Eylül ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA ALPER SELVER
- Good features to correlate for visual tracking
Korelasyon ile görsel takip için iyi öznitelikler
ERHAN GÜNDOĞDU
Doktora
İngilizce
2017
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULLAH AYDIN ALATAN