Assembly kodu üzerinden doğal dil işleme ve yapay zeka ile zararlı yazılım tespiti
Malware detection through natural language processing and artificial intelligence on assembly codes
- Tez No: 893465
- Danışmanlar: PROF. DR. SIRMA YAVUZ, PROF. DR. ALİ GÖKHAN YAVUZ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 116
Özet
Zararlı yazılımlar, dijital iş akışları için önemli bir tehdittir. Geleneksel modelleme yöntemleri, çeşitli algoritmalar ya da bir uzman tarafından çıkarılan özelliklerin kullanılmasına odaklanırken, son zamanlardaki gelişmeler öğrenme tabanlı metodolojilerin gerekliliğini ortaya koymuştur. Nitelik ve nicelik evrim geçiren zararlı yazılımlarla, uzmanlar tarafından yapılan geleneksel“yakala- izole et- parmak izi çıkar”yöntemleri, mücadelede yetersiz kalmıştır. Çalışmamız statik analiz ile elde edilen Assembly kodları üzerinde, doğal dil işleme metotlarının kullanılarak karmaşık bir siber güvenlik problemini belge sınıflandırma problemine indirgeyen öğrenme tabanlı bir metodoloji sunmaktadır. Önerdiğimiz model, birden fazla davranışsal hedef değişkeni ile regüle edilen konvolüsyonel sinir ağlarının Assembly kodları ile eğitilerek sınıflandırma yapmaktadır. Bu model, birbirinden farklı bilgisayar sistemleri ve veri setleri üzerinde çeşitli gerçek dünya dayanım testlerine de sokularak doğrulanmıştır. Çalışmalarımız zararlı yazılım araştırmacılarının karşılaştığı problemler ve bunların önerilen modellere etkisini de araştırarak, model cevaplarının gerçek dünya senaryolarında nasıl tepkiler verebileceği üzerine simülasyonlar gerçekleştirmiştir. Metodolojimiz, zararlı yazılımların yetkinlik ve davranışını etiketleyen hedef değişkenlerin, baz derin öğrenme modellerini regüle etmesinin, sınıflandırma performansını hemen artırdığını göstermiştir. Metodolojimizin katkıları, AMDARGUS (Android) ve MOTIF (Windows) veri setleri üzerinde yapılan kapsamlı testler ile doğrulanmıştır. Ortalama sınıflandırma başarısı ve F1 skorları, modelimizin diğer konvolüsyon tabanlı mimarilere kıyasla girdilerde yapılan manipülasyon saldırılarına karşı daha dayanıklı olduğunu göstermiştir. Çalışmamız, modelimizin genelleştirme başarısını ölçmek adına, sıfırıncı gün zararlı yazılımları testine sokulmuş ve baz modellere göre başarımı oldukça arttırdığı görülmüştür.
Özet (Çeviri)
Malware is a significant threat to digital workflows. While traditional modeling methods focus on using various algorithms for fingerprinting or features extracted by an expert, recent developments have proved the necessity of learning-based methodologies. Evolving quality and quantity of malware, the conventional“capture-isolate-fingerprint”approach by experts have proven inadequate in combating. Our study presents a deep learning method that reduces a complex cybersecurity problem to a simplier“document classification”problem by using natural language processing methods on Assembly code obtained by static analysis. The proposed model performs classification by training convolutional neural networks which regulated by multiple behavioral weak target variables. This model has been validated through various real-world tests on different computer architectures and datasets. Our research also investigates the challenges faced by malware researchers and the impact of these challenges on the proposed models over real-world scenarios. Our methodology demonstrates that the regulation of basic deep learning models by weak target variables immediately improve classification performance. The contributions of our methodology have been validated through extensive tests on the AMDARGUS (Android) and MOTIF (Windows) datasets. The average classification accuracy and F1 scores show that our model is more resilient to manipulation attacks on inputs compared to other convolutional-based architectures. To measure the generalization success of our model, zero-day malware testing conducted and it showed significant improvement over baseline models.
Benzer Tezler
- Doğal gaz konut ve sanayi iç tesisatının bilgisayarla projelendirilmesi
By using computer programme designing of natural gas installation of building and industry systems
CENAP ÖZSARAÇ
- Dynamic response analysis of a floating platform for offshore wind turbines
Yüzer rüzgar türbini platformlarının dinamik tepki analizi
ENES TUNCA
Yüksek Lisans
İngilizce
2017
Gemi Mühendisliğiİstanbul Teknik ÜniversitesiGemi İnşaatı ve Gemi Makineleri Mühendisliği Ana Bilim Dalı
DOÇ. DR. BAHADIR UĞURLU
- From supramolecular chemistry to fundamental organic chemistry: Bis-rosette nanotubes and novel molecular frameworks
Supramoleküler kimyadan temel organik kimyaya: İkili rozet nanotüpler ve yeni moleküler yapılar
CANSU İĞCİ
Yüksek Lisans
İngilizce
2017
KimyaOrta Doğu Teknik ÜniversitesiKimya Ana Bilim Dalı
YRD. DOÇ. DR. EMRULLAH GÖRKEM GÜNBAŞ
- Dizel motor modeli ile entegre bir aşırı doldurma ünitesi tasarım ve optimizasyon modeli geliştirilmesi
Development of a turbocharger design and optimization model integrated with the diesel engine model
MERT ALPAYA
Doktora
Türkçe
2023
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. DR. LEVENT ALİ KAVURMACIOĞLU
PROF. DR. CENGİZ CAMCI
- Implementation of a lightweight trusted platform module
Gömülü sistemler için güvenilir platform modülü tasarımı
MEHMET AKİF ÖZKAN
Yüksek Lisans
İngilizce
2014
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. SIDDIKA BERNA ÖRS