Derin öğrenme ile içerik tabanlı siber tehdit tespiti
Content-based cyber threat detection with deep learning
- Tez No: 676459
- Danışmanlar: PROF. DR. BANU DİRİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 98
Özet
Bilgisayarların insan hayatına girmesiyle karşılaşılan güvenlik problemlerinin başında siber tehditler yer almaktadır ve bu çalışmada özellikle en yaygın siber tehditlerden biri olan oltalama saldırıları ele alınmıştır. E-posta ya da SMS gibi çeşitli iletişim kanalları ile başlayan oltalama saldırıları çoğunlukla kullanıcıların bilgilerini çalmak amacıyla tasarlanmış oltalama internet sitelerinde devam etmektedir. Kullanıcı eğitimi, kara liste kullanımı gibi önleyici çözümler saldırıları engellemeye yeterli olmamaktadır ve saldırıların yol açtığı finansal kayıplar günden güne artmaktadır. Bu doğrultuda oltalama internet sitelerini gerçek zamanlı tespit edebilen yazılım sistemleri geliştirilmektedir. Bu projede sırasıyla Makine Öğrenmesi ve Derin Öğrenme teknikleri kullanılarak oltalama internet sitelerinin tespit edilmesi hedeflenmiştir. Oltalama saldırılarının başarılı bir şekilde sınıflandırılabilmesi için URL, metin veya görsel bazlı yaklaşımlar kullanılabilmektedir. Bu çalışmada içerik-tabanlı yaklaşım benimsenmiştir. İlk aşamada içerik-tabanlı olanlar önceliklendirilerek literatürdeki oltalama tespit çalışmaları araştırılmış ve içlerinden yedi adet içerik-tabanlı çalışma ele alınmıştır. Bu çalışmalardaki 168 eşsiz özelliğin kullanım sıklığı ölçülmüş ve“Gizlenmiş Etiket, Pop-up”sayısı gibi içerik-tabanlı 48 özellik seçilmiştir. Ayrıca veri setindeki örnekler analiz edilerek daha önce literatürde görülmemiş olan 9 içerik-tabanlı özellik daha eklenmiştir. Toplamda 57 özellik hem analiz yöntemleri hem de Scikit-learn kütüphanesindeki fonksiyonlar yardımıyla modele olan etkilerine göre sıralanmıştır. Python, TensorFlow ve BeautifulSoup gibi araçlar kullanılarak veri setinde yer alan oltalama ve meşru internet sitesi içeriklerinin özellikleri çıkarılmıştır. Yedi farklı Makine Öğrenmesi sınıflandırma algoritmasıyla oluşturulan modeller için karışıklık matrisleri elde edilmiştir. En başarılı Makine Öğrenmesi algoritması %97'nin üzerinde doğruluk ve %3'ün altında Yanlış Pozitif Oranı ile Rastgele Orman algoritması olmuştur. Devamında Yinelenen Sinir Ağları, Çekişmeli Üretken Ağ Modelleri gibi Derin Öğrenme teknikleri ile çeşitli sınıflandırma modelleri denenmiştir. Farklı aktivasyon fonksiyonları, katman tipleri ve parametreler kullanılarak yapılan deneysel çalışmalar sonucunda Makine Öğrenmesi algoritmalarından daha başarılı oltalama internet sitesin tespit edebilen Derin Öğrenme modelleri elde edilmiştir. Gelecekteki çalışmalarda içerik tabanlı özelliklerin artırılması, evrimsel algoritmalarla hiper-parametre optimizasyonu ve hibrit yaklaşımların kullanılması ile sınıflandırma modellerinin başarısı artırılabilir.
Özet (Çeviri)
Cyber threats are at the top of the security problems encountered with the introduction of computers into human life, and in this study, phishing attacks, one of the most common cyber threats, are addressed. The phishing attack that started with various communication channels such as e-mail or SMS continues mostly on phishing websites designed to steal users' information. Preclusive solutions such as user education and blacklist usage are not enough to prevent attacks. Therefore, software systems that can detect phishing websites in real time should be developed. In this project, it is aimed to classify phishing and legitimate websites using both Machine Learning and Deep Learning techniques, respectively. Content-based approach is adopted in this study. In the first stage, content-based ones were prioritized, phishing detection studies in the literature were researched and seven content-based studies were addressed. Content-based features such as“Hidden Tags, Number of Pop-ups”were selected. After analyzing phishing content, 9 content-based features that were not previously seen in the literature were added. Totally 57 features are listed according to their effects on the model with analysis methods and functions in the Scikit-learn library. Thanks to the functions created using Python, Scikit-learn, BeautifulSoup, 57 content-based features were extracted.The most successful Machine Learning algorithm has been the Random Forest algorithm with an Accuracy of over 97% and a False Positive Rate below 3%. Subsequently, various classification models were established with Deep Learning techniques such as Recurring Neural Networks, Generative Adversarial Network Models. As a result of experimental studies using different activation functions, layer types and parameters, Deep Learning models that can detect phishing website more successful than Machine Learning algorithms have been obtained. In future studies, the success of classification models can be incremented by increasing content-based features, hyper-parameter optimization with evolutionary algorithms, and using hybrid approaches.
Benzer Tezler
- Human activity recognition using deep convolutional neural network
Derin öğrenme yöntemleri kullanılarak insan aktivitesi tanıma
ELİF KEVSER TOPUZ
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAdana Alparslan Türkeş Bilim Ve Teknoloji ÜniversitesiSiber Güvenlik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YASİN KAYA
- Oltalama saldırılarının derin öğrenme tabanlı URL ve içerik analizi ile hibrit tespiti
Detection of phishing attacks by using deep learning based hybrid URL and content analysis
MEHMET KORKMAZ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BANU DİRİ
PROF. DR. ÖZGÜR KORAY ŞAHİNGÖZ
- İçerik tabanlı web sayfası kategorizasyonu
Content based web page categorization
EBUBEKİR BÜBER
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BANU DİRİ
- Manipulation of visually recognized objects using deep learning
Görsel tanınan nesnelerin derin öğrenme kullanarak hareket ettirilmesi
ERTUĞRUL BAYRAKTAR
Doktora
İngilizce
2018
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. PINAR BOYRAZ
- Deep neural network-based stealthy false data injection attack detection on der integrated systems
Dek entegre sistemlerinde derin sinir ağı tabanlı gizlenmiş yanlış veri enjeksiyon saldırısı tespiti
CAN GÜRKAN
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. VEYSEL MURAT İSTEMİHAN GENÇ