Image-based malware family classification with deep learning and a new dataset

Yeni bir veri seti ve derin öğrenme modelleri ile görüntü tabanlı zararlı yazılım aile sınıflandırması

PDF İndir

Tez No: 866098
Yazar: EMRE MUTLU
Danışmanlar: DOÇ. DR. CİHANGİR TEZCAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Enformatik Enstitüsü
Ana Bilim Dalı: Siber Güvenlik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 92

Özet

Zararlı yazılımlardan kaynaklanan güvenlik ihlalleri artmaya devam etmekte ve gelecekte önemli bir güvenlik endişesi olacağı değerlendirilmektedir. Zararlı yazılım oluşturmak ise yeni teknikler sayesinde eskiye nazaran daha kolaydır. Zararlı yazılım sayılarındaki artış nedeniyle zararlı yazılım tespiti, güncel bir araştırma konusu olmaya devam etmektedir. Binlerce zararlı yazılımın manuel yöntemlerle analiz edilmesi mümkün olmadığından derin öğrenme algoritmaları zararlı yazılım tespiti konusunda sıklıkla kullanılmaya başlanmıştır. Zararlı yazılımları tespit etmedeki asıl zorluklardan birisi, makul bir süre içerisinde manuel metotlar kullanmadan onları tanımlayabilecek yöntemler geliştirmektir. Öte yandan akademik amaçlarla yeni bir zararlı yazılım veri seti hazırlamak da oldukça zordur. Bu nedenle MamMalware adında güncel ve yeni bir veri seti oluşturduk ve MamMalware'den farklı sayı ve ailelerden iki özel veri seti hazırladık. Veri setleri herkese açıktır. Tüm örnekler gri tonlamalı görüntü dosyalarına çevrildi ve ayrıca örneklerin işlem kodu dizileri de çıkarıldı. Görüntü dosyaları ve işlem kodu dizileri girdi olarak kullanıldı. Daha sonra yeni veri setlerimiz üzerinde 2 ve 3 katmanlı Evrişimsel Sinir Ağları (CNN) deneylerini uyguladık. Ayrıca ResNet152 ve VGG19 önceden eğitilmiş modellerle transfer öğrenme yöntemlerini kullanarak deneyler gerçekleştirdik. Sonuç olarak transfer öğrenme modelleri %94 test doğruluğu ile en iyi sonuçları elde etti. Ayrıca daha önce yapılan bir çalışmanın sonuçlarını da doğruladık. Bunun dışında bu çalışmada kullanılan veri seti boyutunun, belirli bir büyüklükten sonra doğruluk üzerinde göz ardı edilebilir bir etkisi olduğunu gözlemledik.

Özet (Çeviri)

Security breaches and incidents due to malware, which is still exponentially evolving in sophistication, continue to increase and will likely be a significant security concern in the future. Moreover, generating a large number of new malware is easier than in the past, due to the recent evasive techniques. Because of the exponential growth in malware attacks, malware detection continues to be an active research topic. Since analyzing thousands of malware with manual methods is not suitable, deep learning algorithms have recently been employed to conduct efficient malware detection. One of the real challenges for detecting malware is developing methods that can identify them without the need for disassembly, debugging, or execution in a reasonable time. On the other side, it is very hard to prepare a new malware dataset for academic purposes. For this reason, we created a new and up to date dataset called MamMalware and generated two custom datasets from MamMalware which have different sizes in terms of number of malware samples and malware families. These datasets are publicly available. All samples are translated into gray-scale image files, and we also extracted the opcode sequences of the samples. Image files and opcode sequences are used as input. Then we applied 2 and 3 layered Convolutional Neural Networks (CNN) experiments on our new datasets. In addition, we conducted experiments using the transfer learning methods with ResNet152 and VGG19 pretrained models. As a result, the transfer learning models obtained the best results with 94% test accuracy. We also validated the results of a prior study. Additionally, we observed that after a certain size, the size of datasets used in this study has a negligible effect on accuracy.

Benzer Tezler

Tez No
809473
Android malware detection using audio and image data transformation
Ses ve görüntü dönüşümü kullanilarak android kötücül yazilim tespiti
OĞUZ EMRE KURAL
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ondokuz Mayıs Üniversitesi
Hesaplamalı Bilimler Ana Bilim Dalı
PROF. DR. ERDAL KILIÇ
Tez No
920304
Derin öğrenme ile görüntü tabanlı hibrit android kötücül yazılım tespiti
Image-based hybrid android malware detection with deep learning
ÖMER KİRAZ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İBRAHİM ALPER DOĞRU
Tez No
700960
Androıd kötücül yazılımlarından koruma sistemlerinin değerlendirilmesi ve görüntü işleme algoritmalarını yapay zekâ teknikleri ile melezleştirerek yeni bir algılama yaklaşımının geliştirilmesi
Evaluating the robustness of android anti-malware systems and developing a novel detection approach based on hybridizing image processing algorithms with artificial intelligence techniques
HALİT BAKIR
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kırıkkale Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HALİL MURAT ÜNVER
Tez No
931603
Adli bilişim sürecinde entropi temelli kötücül yazılım: Deneysel bir çalışma
Entropy-based malware in computer forensics process: An experimental study
ABDULKERİM OĞUZHAN ALKAN
Doktora
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Adli Bilişim Ana Bilim Dalı
PROF. DR. İBRAHİM ALPER DOĞRU
DR. ÖĞR. ÜYESİ İSMAİL ATACAK
Tez No
952115
Convolutional neural network based android malware detection andlocalization
Evrişimli sinir ağları tabanlı android zararlı yazılım tespiti velokalizasyonu
REFİK CAN ÖZTAŞ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SEVİL ŞEN AKAGÜNDÜZ

Geri Dön