Geri Dön

Taşınabilir yürütülebilir dosyalarda yinelenen sinir ağlarını kullanarak statik kötü amaçlı yazılım algılama

Static malware detection using recurrent neural networks in portable executables

  1. Tez No: 693886
  2. Yazar: MUSA GÜL
  3. Danışmanlar: DOÇ. DR. ERDİNÇ AVAROĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Mersin Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 59

Özet

Teknolojideki son gelişmeler ile kötü amaçlı yazılımdan koruma yazılımının ortaya çıkmasından bu yana, bu yazılım ya da yazılımları atlatmaya yönelik özel olarak tasarlanmış karmaşık kötü amaçlı yazılımlarda bir artış görülmüştür. Bu da daha gelişmiş algılama tekniklerine yönelik araştırmalara öncülük etmiştir. Bu çalışmanın temel amacı, taşınabilir yürütülebilir dosyaları statik olarak kötü niyetli veya zararsız olarak sınıflandırmak için derin bir sinir ağı tasarlamak ve değerlendirmektir. Bu amaçla, bilinen kötü niyetli ve zararsız dosyaların taşınabilir yürütülebilir dosyalarından çıkarılan verileri içeren Microsoft'un sunduğu Microsoft Malware Classification Challenge (BIG 2015) ekinliği için hazırlanan veri seti kullanılmıştır. Python programlama dili kullanılarak taşınabilir yürütülebilir dosya örnekleri özellik çıkarımına uygun hale gelecek şekilde parçalara ayrılmıştır. Tüm dosyalar sadece işlem kodları kalacak şekilde ayıklanmıştır. Kod sekansları içerisinden tekrar eden ve gereksiz olan işlem kodları silinmiş, her bir dosyadan gelen kod sekansının büyüklüğü belirli bir boyut ile sınırlandırılmıştır. Bu boyuttan büyük olan dosyalar için geri kalan kodlar alınmazken, küçük olanlar içinse eksik kalan kısımlar sıfır kullanılarak doldurulmuştur. Oluşturulan sözlük, popüler gözetimsiz ve tahmin temelli doğal dil işleme modellerinden Word2Vec kullanılarak vektörel hale getirilmiştir. Word2Vec kullanılırken çalışmaya uygunluğu göz önünde bulundurularak Sürekli Kelime Torbası (CBOW) mimarisi kullanılmıştır. CBOW modeli uygun görüldükten sonra en iyi sonuçların pencere boyutunun 15 olduğu çalışmada elde edildiği görülmüştür, bu nedenle pencere boyutu 15 olarak belirlenmiştir. Çalışma uzun sekanslar içerdiğinden RNN modelinde hız düşüşü öngörülerek RNN'nin farklı bir versiyonu olan LSTM kullanılmıştır. LSTM modelinin oldukça az sayıda eğitim turu yapılsa dahi öğrenmeye gayet yüksek doğruluk oranları ile başladığını, ardından eğitim turu arttıkça da doğruluk oranının dramatik bir şekilde yükseldiği görülmektedir. Beklenildiği gibi 10 eğitim turu sonrasında ise artık model doygunluğa eriştiği için performansındaki gelişmeler çok sınırlı kalmıştır. 50 eğitim turu sonrası elde edilen en iyi doğruluk değeri ise %95,8 olarak elde edilmiştir. Bulgular, yeni üretilen ya da az bilinen kötü amaçlı yazılımların kolaylıkla tespit edilmesi konusunda oldukça önem arz etmekte ve virüs imza veri tabanı temelli koruma yazılımları yerine makine öğreniminin modellendiği daha gelişmiş kötü amaçlı yazılımdan korunma tekniklerinin tasarımında yol gösterici olacaktır.

Özet (Çeviri)

Since the advent of anti-malware software with recent advances in technology, there has been an increase in sophisticated malware specifically designed to circumvent them. This led to research into more advanced sensing techniques. The main purpose of this study is to design and evaluate a deep neural network to statically classify portable executables as malicious or harmless. For this purpose, the data set prepared for the Microsoft Malware Classification Challenge (BIG 2015) event presented by Microsoft, which includes the data extracted from the portable executable files of known malicious and harmless files, was used. Examples of portable executables using the Python programming language are segmented to be suitable for feature extraction. All files have been extracted so that only opcodes remain. Repetitive and unnecessary opcodes were deleted from the code sequences, and the size of the code sequence from each file was limited to a certain size. For the files larger than this size, the remaining codes are not taken, while for the smaller ones, the missing parts are filled with zeros. The created dictionary was vectorized using Word2Vec, one of the popular unattended and predictive-based natural language processing models. When using Word2Vec, the Continuous Bag of Words (CBOW) architecture was used considering its suitability to work. After the CBOW model was approved, it was seen that the best results were obtained in the study with a window size of 15, therefore the window size was determined as 15. Since the study includes long sequences, a different version of RNN, LSTM, was used by predicting a speed decrease in the RNN model. It is seen that the LSTM model starts learning with very high accuracy rates even if a very small number of training tours are performed, and then the accuracy rate increases dramatically as the training tour increases. As expected, after 10 training rounds, the performance improvements were very limited as the model had reached saturation. The best accuracy value obtained after 50 training rounds was obtained as 95.8%. The findings are very important in easily detecting newly produced or lesser-known malware and will guide the design of more advanced anti-malware techniques modeled by machine learning rather than virus signature database-based protection software.

Benzer Tezler

  1. Çalıştırılabilir dosyaların nümerik ve metinsel özellikleri kullanılarak makine öğrenmesi ile zararlı yazılım tespiti

    Malware detection with machine learning using executable files numeric and textual features

    SEFU MOHAMED

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İBRAHİM ÖZÇELİK

  2. Tersine mühendislik yöntemleri ve bilgisayar uygulamaları analizi

    Reverse engineering methods and computer applications analysis

    GÜNEY UĞURLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KORAY AÇICI

  3. An optimized malware detection technique using subspace learning- based one-class classification

    Altı uzay öğrenme tabanlı tek sınıf sınıflandırma kullanılarak optimize edilmiş bir kötü amaçlı yazılım tespit tekniği

    HASAN HARITH JAMEEL ALKHSHALI

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMAD ILYAS

  4. Preparation and characterization of polyacrylonitrile-based quasi-solid-state electrolytes for lithium-ion battery applications

    Lityum-iyon pil uygulamaları için poliakrilonitril bazlı yarı katı hal elektrolitlerin hazırlanması ve karakterizasyonu

    SABİHA EZGİ KAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Enerjiİstanbul Teknik Üniversitesi

    Enerji Bilim ve Teknoloji Ana Bilim Dalı

    PROF. DR. NİLGÜN KARATEPE YAVUZ

  5. Investigation of aesthetic experience as a potential functional aspect of architecture

    Mimarlıkta potansiyel bir işlev olarak estetik deneyimin incelenmesi

    YİĞİT BEYLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    MimarlıkTOBB Ekonomi ve Teknoloji Üniversitesi

    Mimarlık Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AKTAN ACAR