Geri Dön

Derin öğrenme ile içerik tabanlı siber tehdit tespiti

Content-based cyber threat detection with deep learning

  1. Tez No: 676459
  2. Yazar: EMRE KOÇYİĞİT
  3. Danışmanlar: PROF. DR. BANU DİRİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 98

Özet

Bilgisayarların insan hayatına girmesiyle karşılaşılan güvenlik problemlerinin başında siber tehditler yer almaktadır ve bu çalışmada özellikle en yaygın siber tehditlerden biri olan oltalama saldırıları ele alınmıştır. E-posta ya da SMS gibi çeşitli iletişim kanalları ile başlayan oltalama saldırıları çoğunlukla kullanıcıların bilgilerini çalmak amacıyla tasarlanmış oltalama internet sitelerinde devam etmektedir. Kullanıcı eğitimi, kara liste kullanımı gibi önleyici çözümler saldırıları engellemeye yeterli olmamaktadır ve saldırıların yol açtığı finansal kayıplar günden güne artmaktadır. Bu doğrultuda oltalama internet sitelerini gerçek zamanlı tespit edebilen yazılım sistemleri geliştirilmektedir. Bu projede sırasıyla Makine Öğrenmesi ve Derin Öğrenme teknikleri kullanılarak oltalama internet sitelerinin tespit edilmesi hedeflenmiştir. Oltalama saldırılarının başarılı bir şekilde sınıflandırılabilmesi için URL, metin veya görsel bazlı yaklaşımlar kullanılabilmektedir. Bu çalışmada içerik-tabanlı yaklaşım benimsenmiştir. İlk aşamada içerik-tabanlı olanlar önceliklendirilerek literatürdeki oltalama tespit çalışmaları araştırılmış ve içlerinden yedi adet içerik-tabanlı çalışma ele alınmıştır. Bu çalışmalardaki 168 eşsiz özelliğin kullanım sıklığı ölçülmüş ve“Gizlenmiş Etiket, Pop-up”sayısı gibi içerik-tabanlı 48 özellik seçilmiştir. Ayrıca veri setindeki örnekler analiz edilerek daha önce literatürde görülmemiş olan 9 içerik-tabanlı özellik daha eklenmiştir. Toplamda 57 özellik hem analiz yöntemleri hem de Scikit-learn kütüphanesindeki fonksiyonlar yardımıyla modele olan etkilerine göre sıralanmıştır. Python, TensorFlow ve BeautifulSoup gibi araçlar kullanılarak veri setinde yer alan oltalama ve meşru internet sitesi içeriklerinin özellikleri çıkarılmıştır. Yedi farklı Makine Öğrenmesi sınıflandırma algoritmasıyla oluşturulan modeller için karışıklık matrisleri elde edilmiştir. En başarılı Makine Öğrenmesi algoritması %97'nin üzerinde doğruluk ve %3'ün altında Yanlış Pozitif Oranı ile Rastgele Orman algoritması olmuştur. Devamında Yinelenen Sinir Ağları, Çekişmeli Üretken Ağ Modelleri gibi Derin Öğrenme teknikleri ile çeşitli sınıflandırma modelleri denenmiştir. Farklı aktivasyon fonksiyonları, katman tipleri ve parametreler kullanılarak yapılan deneysel çalışmalar sonucunda Makine Öğrenmesi algoritmalarından daha başarılı oltalama internet sitesin tespit edebilen Derin Öğrenme modelleri elde edilmiştir. Gelecekteki çalışmalarda içerik tabanlı özelliklerin artırılması, evrimsel algoritmalarla hiper-parametre optimizasyonu ve hibrit yaklaşımların kullanılması ile sınıflandırma modellerinin başarısı artırılabilir.

Özet (Çeviri)

Cyber threats are at the top of the security problems encountered with the introduction of computers into human life, and in this study, phishing attacks, one of the most common cyber threats, are addressed. The phishing attack that started with various communication channels such as e-mail or SMS continues mostly on phishing websites designed to steal users' information. Preclusive solutions such as user education and blacklist usage are not enough to prevent attacks. Therefore, software systems that can detect phishing websites in real time should be developed. In this project, it is aimed to classify phishing and legitimate websites using both Machine Learning and Deep Learning techniques, respectively. Content-based approach is adopted in this study. In the first stage, content-based ones were prioritized, phishing detection studies in the literature were researched and seven content-based studies were addressed. Content-based features such as“Hidden Tags, Number of Pop-ups”were selected. After analyzing phishing content, 9 content-based features that were not previously seen in the literature were added. Totally 57 features are listed according to their effects on the model with analysis methods and functions in the Scikit-learn library. Thanks to the functions created using Python, Scikit-learn, BeautifulSoup, 57 content-based features were extracted.The most successful Machine Learning algorithm has been the Random Forest algorithm with an Accuracy of over 97% and a False Positive Rate below 3%. Subsequently, various classification models were established with Deep Learning techniques such as Recurring Neural Networks, Generative Adversarial Network Models. As a result of experimental studies using different activation functions, layer types and parameters, Deep Learning models that can detect phishing website more successful than Machine Learning algorithms have been obtained. In future studies, the success of classification models can be incremented by increasing content-based features, hyper-parameter optimization with evolutionary algorithms, and using hybrid approaches.

Benzer Tezler

  1. Human activity recognition using deep convolutional neural network

    Derin öğrenme yöntemleri kullanılarak insan aktivitesi tanıma

    ELİF KEVSER TOPUZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAdana Alparslan Türkeş Bilim Ve Teknoloji Üniversitesi

    Siber Güvenlik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YASİN KAYA

  2. Oltalama saldırılarının derin öğrenme tabanlı URL ve içerik analizi ile hibrit tespiti

    Detection of phishing attacks by using deep learning based hybrid URL and content analysis

    MEHMET KORKMAZ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BANU DİRİ

    PROF. DR. ÖZGÜR KORAY ŞAHİNGÖZ

  3. İçerik tabanlı web sayfası kategorizasyonu

    Content based web page categorization

    EBUBEKİR BÜBER

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BANU DİRİ

  4. Manipulation of visually recognized objects using deep learning

    Görsel tanınan nesnelerin derin öğrenme kullanarak hareket ettirilmesi

    ERTUĞRUL BAYRAKTAR

    Doktora

    İngilizce

    İngilizce

    2018

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. PINAR BOYRAZ

  5. Deep neural network-based stealthy false data injection attack detection on der integrated systems

    Dek entegre sistemlerinde derin sinir ağı tabanlı gizlenmiş yanlış veri enjeksiyon saldırısı tespiti

    CAN GÜRKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. VEYSEL MURAT İSTEMİHAN GENÇ