Geri Dön

An attention based deep neural network architecture for identification of phishing URLS through character level n-gram embeddings

Kimlik avcısı URL tespitinde karakter n-gram düzeyinde özyerleşiklerden yararlanan dikkate dayalı bir derin sinir ağı mimarisi

  1. Tez No: 759200
  2. Yazar: FIRAT COŞKUN DALGIÇ
  3. Danışmanlar: PROF. DR. MURAT AYDOS, DOÇ. DR. AHMET SELMAN BOZKIR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 98

Özet

Kimlik avı saldırılarına karşı mücadelede gerçekleştirilen çeşitli teknolojik gelişmelere rağmen, bu sorun hala siber güvenlik alanındaki en yaygın tehditlerden biri olmaya devam etmektedir. Artan iletişim kanalları ve sosyal medyanın yükselişiyle sebebiyle hızlı ve etkili bir oltalama tespiti çok daha önemli bir hale gelmiştir. Bu tezde, kötücül web sitelerini URL bilgilerinden tanıyabilen ve aşağıdaki yenilikleri literatüre kazandıran Grambeddings isimli uçtan uca derin öğrenme modelini geliştirmeye odaklandık; (1) herhangi bir ön öğrenme aşamasına gerek duymayan n-gram gömmelerini sorunsuz bir şekilde oluşturma ve kullanma yöntemi, (2) terimleri kelimeler veya alt kelimeler yerine n-gramlar ile temsil ederek dilden bağımsız bir temsil oluşturma (3) hızlı, akıllı ve verimli n-gram/öznitelik seçim prosedürü. Bunların yanı sıra, yarısı meşru ve yarısı oltalama örneklerine ait gerçek dünyadan toplanan toplam 800.000 URL örneğini içeren büyük ölçekli ve özel bir veri seti yayınladık. Grambeddings, her bir kanalı peşpeşe dizili Gömme, Uygulamalı Evrişimsel Sinir Ağları, Uzun Kısa Süreli Bellek ve Dikkat Mekanizması katmanlarından oluşan, otomatik ve ayarlabilir bir n-gram çıkarma ve seçme mekanizması sayesinde her biri farklı n-gram seviyesine ait olmak üzere toplamda dört farklı kanalın birleştirilmesini sağlayan yeni bir derin sinir ağı mimarisi sunar. Böylelikle, öne sürülen modelimiz herhangi bir el yordamı bir işlem gerektirmeden çoklu ayırt edici karakter sekanslarını desenlerini yakalayabilmektedir. Sonuç olarak, Grambeddings kimlik avı algılama alanındaki çalışmalara aşağıdaki katkılarda bulunur: (1) üst düzey bir performans sağlarken gerçek zamanlı çıkarımda bulunma ve koruma sağlama yeteneği, (2) dilden bağımsız korpusun ve gömmenin ilklendirilmesi, (3) herhangi bir el yormadıyla oluşturulmuş özniteliğin kullanılmasını veya üçüncü taraf bir hizmete ihtiyacı ortadan kaldırır. Bunların yanı sıra, tez kapsamında, hem veri kümesi hem de yöntem açısından bir dizi karşılaştırmalaı deney gerçekleştirdik. Bu karşılaştırmalı test sonuçlarına bağlı olarak, modelimizin \%98,27'lik bir başarıyla liteatürdeki diğer yaklaşımlardan daha yüksek skor gösterdik. Son olarak, Grambeddings'in çekişmeli saldırılara karşı dayanıklılığını da analiz ettik ve eğitim aşamasında daha önce herhangi bir çekişmeli örneği görüp görmeme açısından hem önceden eğitilmiş hem de yeniden eğitilmiş modelin özelliklerini derinlemesine inceledik. Bu çalışmanın kaynak kodu gelecekte sunulacak diğer çalışmalar tarafından kıyaslama amacıyla kullanması için topluluk ile paylaşılmıştır.

Özet (Çeviri)

Despite the various technological advancements that have been made in the fight against phishing attacks, the problem still remains one of the most common threats in the cybersecurity domain. Due to the increasing number of communication channels and the rise of social media, the need for effective and rapid phishing detection has become more prevalent. In this thesis, we focused on developing an end-to-end deep learning model named Grambeddings that can recognize malicious websites from URL information while introducing the following novelties into the literature; (1) constructing and employing n-gram embeddings seamlessly without requiring any preliminary learning stage, (2) eliminating the necessity of language-knowledge by representing terms from n-grams instead of words or sub-words, (3) providing fast, intelligent and efficient n-gram/feature selection procedure. Besides, we also published an exclusive large-scale novel dataset that contains 800.000 real-world half of which were legitimate and half were phish. Grambeddings presents an adjustable and automated n-gram extraction and selection mechanism along with a new deep architecture that enables to merging of four different n-gram level features from its corresponding channel while each channel obtains required deep features through cascading CNN, LSTM, and attention layers. In this way, the model becomes able to capture the multiple discriminative character sequence patterns without requiring any hand-crafted operation. As a result, the proposed approach contributes the following features to the phishing detection domain: (1) real-time inference and protection while providing excellent performance, (2) language-agnostic corpus and embedding construction, and (3) eliminating the necessity of hand-crafted features, or the need of using any third-party service. In addition, we conducted a series of comparative experiments in both dataset-wise and method-wise manner. We verified the superiority of our model in all tests since it outperforms the other models in the literature by achieving 98.27\% accuracy. Lastly, we also analyzed the Grambeddings' robustness against adversarial attacks and examined in-depth the characteristics of the model both in the pre-trained and re-trained conditions in terms of seeing any adversarial sample before during the training phase. Our codebase is shared with the community to be used for benchmarking purposes in the future.

Benzer Tezler

  1. Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi

    Task based management of user queries for effective query suggestions

    NURULLAH ATEŞ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  2. İmalat sistemlerinin tasarlanması ve öncelik kurallarının belirlenmesinde yapay sinir ağlarının kullanılması

    Başlık çevirisi yok

    TARIK ÇAKAR

    Doktora

    Türkçe

    Türkçe

    1997

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. AYHAN TORAMAN

  3. Building sensor-based real-time predictive maintenance system by utilizing artificial intelligent techniques

    Yapay akıllı teknikleri kullanarak sensör tabanlı gerçek zaman tahminli bakım sistemi kurulması

    RAGHAD MOHAMMED KHORSHEED

    Doktora

    İngilizce

    İngilizce

    2021

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA

  4. Deep convolutional neural network based representations for person re-identification

    Kişiyi yeniden tanıma için derin evrişimsel sinir ağı tabanlı modeller

    ALPER ULU

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAZIM KEMAL EKENEL

  5. Identification of object manipulation anomalies for service robots

    Servis robotları için nesne etkileşim anomalilerinin tanısı

    DOĞAN ALTAN

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SANEM SARIEL UZER