Sahte internet sitelerinin URL özellikleri temelinde tespit edilmesi amacıyla özellik seçme metotlarının ve öğrenme algoritmalarının analizi

Analysis of feature selection methods and learning algorithms for phishing websites detection based on URL

PDF İndir

Tez No: 733458
Yazar: MUSTAFA AYDIN
Danışmanlar: PROF. DR. SEVİNÇ GÜLSEÇEN, PROF. DR. KUTLUK KAĞAN SÜMER
Tez Türü: Doktora
Konular: Bankacılık, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Banking, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: İstanbul Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Enformatik Ana Bilim Dalı
Bilim Dalı: Enformatik Bilim Dalı
Sayfa Sayısı: 115

Özet

Oltalama saldırıları, kimlik avcılarının sahte bir internet sitesini yasal bir site gibi göstererek internet kullanıcılarını inandırdığı saldırılardır. Özellikle finansal hassas bilgileri çalmak için kullanılan oltalama saldırıları kullanıcılar için kritik bir tehdit oluşturmakta ve oltalama saldırılarından kaynaklanan kayıplar artmaya devam etmektedir. Yapılan çalışmalar ve elde edilen istatistikler genel olarak değerlendirildiğinde oltalama saldırıları gerek küresel çapta gerek Türkiye çapında mücadele edilmesi gereken kritik siber güvenlik konularından birisi olmaya devam etmektedir. Oltalama sitelerinin engellenmesine yönelik çalışmalara başlamadan önce tespit başarısını arttırmak amacıyla bu sitelerin belirgin ve ortak özellikleri tespit edilmelidir. Bu çalışmada oltalama sitelerinin en belirgin tespit edilebilir özelliklerinden birisi olan URL içeriği üzerinde durulmuştur. Bu amaç doğrultusunda literatürde kabul edilen performans metriklerine bağlı olarak yüksek başarı oranına sahip bir sınıflandırıcı iş akışı modeli önerisi hedeflenmiştir. Oltalama amaçlı kullanılan URL adreslerinin tespiti için bu çalışmada 2 farklı model kullanılmıştır. İlk modelde oltalama saldırısı tespiti amaçlı oluşturulan veri kümesi üzerinde bazı özellik seçme yöntemlerinin ve sınıflandırma algoritmalarının performansı analiz edilmiştir. Araştırmadaki temel amaç, farklı sınıflandırma algoritmalarının ve farklı özellik seçme yöntemlerinin birbirleriyle olan en iyi uyumluluğunu bularak sahte internet sitesi tespit doğruluğunu maksimize etmektir. Bu çalışmada, Korelasyon alt küme tabanlı, Tutarlılık alt küme tabanlı, Kazanç Oranı nitelik tabanlı ve Relief-F nitelik tabanlı özellik seçme yöntemleri ve Naïve Bayes, SMO (Sıralı Minimal Optimizasyon), CART (Sınıflandırma ve Regresyon Ağacı), J48 (Karar Ağacı) ve Rastgele Orman olmak üzere beş tür sınıflandırma algoritması üzerine çalışılmıştır. Bu algoritmalar WEKA yazılımı kullanılarak incelenmiştir. Rastgele Orman algoritması, tüm özellik seçme yöntemlerinde en iyi performansı göstermiştir. İlave olarak, J48 algoritması ikinci, CART algoritması ise üçüncü en iyi sınıflandırma algoritması olarak öne çıkmıştır. Çalışmanın diğer modelinde oltalama sitelerinin tespiti için derin öğrenme modeli olarak ileri beslemeli derin sinir ağlarının kullanımı tercih edilmiştir. İleri beslemeli derin sinir ağları temelde çok katmanlı algılayıcıların altyapısına dayanmaktadır. Bu modelin başarısına katman ve düğümlerin etkisini araştırmak için 6 adet farklı deneysel mimari hazırlanmıştır. Toplamda bu 6 adet farklı mimariye sahip derin öğrenme modelleri oltalama veri setiyle eğitilmiş ve en optimum çözüm tespit edilmiştir. Bu çalışmada derin öğrenme kullanılarak hızlı bir algılama yöntemine dayalı çok boyutlu bir oltalama tespiti yaklaşımı önerilmektedir. Oltalama URL'si ve meşru URL içeren bir veri kümesi üzerinde yapılan testler sonucunda, doğruluk parametresi için %99,46 oranı elde edilmiştir. Literatürde yer alan çalışmalar göz önünde bulundurulduğunda oltalama URL adreslerinin tespiti için derin öğrenme modeli kullanımının doğru bir yaklaşım olduğu kanıtlanmaktadır.

Özet (Çeviri)

Phishing attacks are attacks in which phishers deceive internet users by making a fake website look like a legitimate one. Phishing attacks are especially used to capture financially sensitive information, hence pose a critical threat to users and the losses from phishing attacks continue to increase. When the studies and the gathered statistics are evaluated in general, phishing attacks continue to be one of the critical cyber security issues that need to be tackled both globally and throughout Turkey. Before starting the studies on the blocking of phishing sites, the distinctive and common features of these sites should be determined in order to increase success rate of the detection. In this study, URL content, which is one of the most distinctive detectable features of phishing sites, is emphasized. For this purpose, it is aimed to propose a classifier workflow model with a high success rate, depending on the performance metrics accepted in the literature. Two different models were used in this study to detect URL addresses used for phishing purposes. In the first model of the study, the performance of some special feature selection and classification algorithms on the dataset created for the detection of the phishing attack websites was analyzed. The main purpose of the research is to maximize the fake website detection accuracy by finding the best compatibility between different classification algorithms and different feature selection methods. In this study, four types of feature selection methods and five types of classification algorithms were studied, namely CFS (Correlation-based Feature Selection) subset based, Consistency subset based, Gain Ratio attribute based, Relief-F attribute based feature selection methods and Naïve Bayes, SMO (Sequential Minimal Optimization), CART (Classification and Regression Tree), J48 (Decision Tree) and Random Forest classification algorithms. These algorithms were analyzed using WEKA software. The Random Forest algorithm showed the best performance in all feature selection methods. In addition, the J48 algorithm stood out as the second-best classification algorithm and the CART algorithm as the third-best classification algorithm. In the other model of the study, the use of feedforward deep neural networks was preferred as a deep learning model for detecting phishing sites. Feedforward deep neural networks are basically based on the infrastructure of multilayer neurons. In order to investigate the effect of layers and nodes on the success of this model, 6 different experimental architectures were prepared. In total, these 6 deep learning models with different architectures were trained with the phishing dataset and the most optimum solution was determined. In this study, a multidimensional phishing detection approach based on a rapid detection method using deep learning is proposed. As a result of tests on a dataset containing phishing and legitimate URLs, an accuracy rate of 99.46% was obtained. Considering the studies in the literature, it is proven that the use of a deep learning model is an appropriate approach to detect phishing URL addresses.

Benzer Tezler

Tez No
847173
Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
Tez No
849067
A novel two phased approach combining deep learning and machinelearning classifiers for effective detection of turkish phishing web sites
Türkçe kimlik avı web sitelerinin etkin tespiti için derin öğrenme ve makine öğrenmesi sınıflandırıcılarını birleştiren yeni, iki aşamalı bir yaklaşım
İHSAN DENİZ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Adana Alparslan Türkeş Bilim Ve Teknoloji Üniversitesi
Siber Güvenlik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÇAĞATAY NEFTALİ TÜLÜ
Tez No
921128
Oltalama site engelleyici tarayıcı eklentisi
Phishing site blocker browser add-on
AHMET GÜREL
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Süleyman Demirel Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TURGAY AYDOĞAN
Tez No
654586
Oltalama internet sitelerinin otomatik tespiti ve kullanıcı istismarının önüne geçilmesi için modül tasarımı
Automatic phishing websi̇te detection and module design for prevent user abuse
SAMET GANAL
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Süleyman Demirel Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ECİR UĞUR KÜÇÜKSİLLE
Tez No
686214
Yapay öğrenme sınıflandırıcı algoritmalarında veriye dayalı keşif saldırılarının tespiti
Detection of data-driven discovery attacks on machine learning classifier algorithms
EMRE SADIKOĞLU
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yalova Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU DEMİRELLİ OKKALIOĞLU

Geri Dön