Assembly kodu üzerinden doğal dil işleme ve yapay zeka ile zararlı yazılım tespiti

Malware detection through natural language processing and artificial intelligence on assembly codes

PDF İndir

Tez No: 893465
Yazar: ALPER EĞİTMEN
Danışmanlar: PROF. DR. SIRMA YAVUZ, PROF. DR. ALİ GÖKHAN YAVUZ
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 116

Özet

Zararlı yazılımlar, dijital iş akışları için önemli bir tehdittir. Geleneksel modelleme yöntemleri, çeşitli algoritmalar ya da bir uzman tarafından çıkarılan özelliklerin kullanılmasına odaklanırken, son zamanlardaki gelişmeler öğrenme tabanlı metodolojilerin gerekliliğini ortaya koymuştur. Nitelik ve nicelik evrim geçiren zararlı yazılımlarla, uzmanlar tarafından yapılan geleneksel“yakala- izole et- parmak izi çıkar”yöntemleri, mücadelede yetersiz kalmıştır. Çalışmamız statik analiz ile elde edilen Assembly kodları üzerinde, doğal dil işleme metotlarının kullanılarak karmaşık bir siber güvenlik problemini belge sınıflandırma problemine indirgeyen öğrenme tabanlı bir metodoloji sunmaktadır. Önerdiğimiz model, birden fazla davranışsal hedef değişkeni ile regüle edilen konvolüsyonel sinir ağlarının Assembly kodları ile eğitilerek sınıflandırma yapmaktadır. Bu model, birbirinden farklı bilgisayar sistemleri ve veri setleri üzerinde çeşitli gerçek dünya dayanım testlerine de sokularak doğrulanmıştır. Çalışmalarımız zararlı yazılım araştırmacılarının karşılaştığı problemler ve bunların önerilen modellere etkisini de araştırarak, model cevaplarının gerçek dünya senaryolarında nasıl tepkiler verebileceği üzerine simülasyonlar gerçekleştirmiştir. Metodolojimiz, zararlı yazılımların yetkinlik ve davranışını etiketleyen hedef değişkenlerin, baz derin öğrenme modellerini regüle etmesinin, sınıflandırma performansını hemen artırdığını göstermiştir. Metodolojimizin katkıları, AMDARGUS (Android) ve MOTIF (Windows) veri setleri üzerinde yapılan kapsamlı testler ile doğrulanmıştır. Ortalama sınıflandırma başarısı ve F1 skorları, modelimizin diğer konvolüsyon tabanlı mimarilere kıyasla girdilerde yapılan manipülasyon saldırılarına karşı daha dayanıklı olduğunu göstermiştir. Çalışmamız, modelimizin genelleştirme başarısını ölçmek adına, sıfırıncı gün zararlı yazılımları testine sokulmuş ve baz modellere göre başarımı oldukça arttırdığı görülmüştür.

Özet (Çeviri)

Malware is a significant threat to digital workflows. While traditional modeling methods focus on using various algorithms for fingerprinting or features extracted by an expert, recent developments have proved the necessity of learning-based methodologies. Evolving quality and quantity of malware, the conventional“capture-isolate-fingerprint”approach by experts have proven inadequate in combating. Our study presents a deep learning method that reduces a complex cybersecurity problem to a simplier“document classification”problem by using natural language processing methods on Assembly code obtained by static analysis. The proposed model performs classification by training convolutional neural networks which regulated by multiple behavioral weak target variables. This model has been validated through various real-world tests on different computer architectures and datasets. Our research also investigates the challenges faced by malware researchers and the impact of these challenges on the proposed models over real-world scenarios. Our methodology demonstrates that the regulation of basic deep learning models by weak target variables immediately improve classification performance. The contributions of our methodology have been validated through extensive tests on the AMDARGUS (Android) and MOTIF (Windows) datasets. The average classification accuracy and F1 scores show that our model is more resilient to manipulation attacks on inputs compared to other convolutional-based architectures. To measure the generalization success of our model, zero-day malware testing conducted and it showed significant improvement over baseline models.

Benzer Tezler

Tez No
21975
Doğal gaz konut ve sanayi iç tesisatının bilgisayarla projelendirilmesi
By using computer programme designing of natural gas installation of building and industry systems
CENAP ÖZSARAÇ
Yüksek Lisans
Türkçe
1992
Makine Mühendisliği İstanbul Teknik Üniversitesi
PROF. DR. OSMAN F. GENCELİ
Tez No
472832
Dynamic response analysis of a floating platform for offshore wind turbines
Yüzer rüzgar türbini platformlarının dinamik tepki analizi
ENES TUNCA
Yüksek Lisans
İngilizce
2017
Gemi Mühendisliği İstanbul Teknik Üniversitesi
Gemi İnşaatı ve Gemi Makineleri Mühendisliği Ana Bilim Dalı
DOÇ. DR. BAHADIR UĞURLU
Tez No
474928
From supramolecular chemistry to fundamental organic chemistry: Bis-rosette nanotubes and novel molecular frameworks
Supramoleküler kimyadan temel organik kimyaya: İkili rozet nanotüpler ve yeni moleküler yapılar
CANSU İĞCİ
Yüksek Lisans
İngilizce
2017
Kimya Orta Doğu Teknik Üniversitesi
Kimya Ana Bilim Dalı
YRD. DOÇ. DR. EMRULLAH GÖRKEM GÜNBAŞ
Tez No
363543
Implementation of a lightweight trusted platform module
Gömülü sistemler için güvenilir platform modülü tasarımı
MEHMET AKİF ÖZKAN
Yüksek Lisans
İngilizce
2014
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. SIDDIKA BERNA ÖRS
Tez No
829166
Dizel motor modeli ile entegre bir aşırı doldurma ünitesi tasarım ve optimizasyon modeli geliştirilmesi
Development of a turbocharger design and optimization model integrated with the diesel engine model
MERT ALPAYA
Doktora
Türkçe
2023
Makine Mühendisliği İstanbul Teknik Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
DOÇ. DR. LEVENT ALİ KAVURMACIOĞLU
PROF. DR. CENGİZ CAMCI

Geri Dön