Geri Dön

Kötü amaçlı URL adreslerinin makine öğrenmesi yöntemleri ile tespiti

Detection of malicious URL addresses using machine learning methods

  1. Tez No: 934773
  2. Yazar: DENİZ KAYA
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MURAT OSMANOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 64

Özet

Yaşadığımız çağda sürekli olarak teknolojik gelişmelerin hızlı bir şekilde gerçekleşmesine bağlı olarak günlük hayatlarımızın içerisinde teknolojinin anlamı ve önemi de farklı bir noktada yer edinmiş durumdadır. İlk başlarda sadece temel düzeyde işlevleri yerine getiren web sitelerinin kullanıldığı bilgisayarlar ve sadece iletişim ihtiyacını karşılayan cep telefonlarının hızlı bir şekilde gelişmesi ve kullanımlarının artması sonucunda gerek bilgisayar ve tablet gibi cihazlar ile gerekse her an kullanımımız için yanımızda bulunan cep telefonları ile artık temel ihtiyaçların ötesinde günlük hayatımızın parçası haline gelmiş birçok iş ve işlevi yerine getirebilmekteyiz. İnsanlar tarafından bu kadar yoğun kullanılan alanlar da siber korsanlar tarafından tercih edilen alanlardır. Bu tercihin temelinde ise spesifik saldırılar için yazılımlar geliştirmek yerine bir kötü niyetli yazılımın geliştirilerek çok sayıda kişinin verilerini elde etmektir. Bu amaçla günümüzde her gün binlerce web sitesi gerek bilgileri doğrudan web site üzerinden çalmak gerekse kullanıcıya zararlı yazılım bulaştırarak sistemindeki verileri çalmak, bozmak ya da ele geçirmek amacıyla dağıtımları gerçekleştirilmeye çalışılmaktadır. Gelişen teknolojiler ile birlikte makine öğrenme yöntemlerinin tanınması ve zararlı url adreslerinin tespit edilebilmesi amacıyla url adreslerinin özniteliklerinin incelenmesi ve sınıflandırma algoritmalarının tanınmasının sağlanması ile birlikte yapılabilecek bir çalışmanın alt yapısı oluşturulmuştur. Çalışmada, PhishTank ve Majestic Million gibi birden fazla kaynaktan gelen 450.176 URL'den oluşan Genel URL Veri Kümesi kullanılmıştır. Bunlardan 345.738'i zararsız kabul edilirken, 104.438 URL'nin zararlı olduğu belirtilmiştir. Zararlı ve zararsız URL'ler arasında bir denge sağlamak amacıyla, veri kümesi 20 eşit büyüklükte alt gruba ayrıldı. Her alt küme, 17.286 zararsız URL'nin 5.221 zararlı URL'sine olan orijinal oranını korudu. Bu seçimler, her deney için beş ayrı rastgele örnek oluşturmak için kullanıldı. Zararlı URL'leri belirlemede K-En Yakın Komşular (KNN), Destek Vektör Makineleri (SVM), Rastgele Orman, Gradient Boosting, Naive Bayes ve Çok Katmanlı Algılayıcı (MLP) dahil olmak üzere bir dizi algoritmanın etkinliği değerlendirildi. Rastgele Orman algoritması, düşük yanlış alarm oranını korurken zararlı URL'lerini belirlemedeki üstün yeteneğini gösteren %99,06'lık bir doğruluk oranı göstererek diğer modellerden daha iyi performans gösterdi.

Özet (Çeviri)

In the age we live in, due to the rapid technological developments, the meaning and importance of technology has gained a different place in our daily lives. As a result of the rapid development and increase in the use of computers, which were initially used only for websites that performed basic functions, and mobile phones, which only met communication needs, we now have access to devices such as computers and tablets, as well as mobile phones that are with us for use at all times, now a part of our daily lives beyond the basic needs. We can perform many jobs and functions that have become a part of our company. Areas that are used so intensively by people are also areas preferred by cyber hackers. The basis of this choice is to obtain the data of a large number of people by developing malware instead of developing software for specific attacks. For this purpose, thousands of websites are being distributed every day, either to steal information directly from the website or to steal, corrupt or seize the data in the user's system by infecting the user with malware. With the developing technologies, the infrastructure of a study that can be done by examining the attributes of URL addresses and identifying classification algorithms has been created in order to recognize machine learning methods and detect malicious URL addresses. A General URL Dataset of 450,176 URLs from multiple sources, such as PhishTank and the Majestic Million, was used in the study. Of these, 345,738 were deemed to be authentic, while 104,438 URLs were reported as phishing. In order to maintain a balance between phishing and valid URLs, the dataset was separated into 20 equal-sized subgroups. Each subset kept the original ratio of 17,286 legitimate URLs to 5,221 phishing URLs. These selections were used to create five distinct random samples for each experiment. The effectiveness of a number of algorithms, including K-Nearest Neighbors (KNN), Support Vector Machines (SVM), Rastgele Orman, Gradient Boosting, Naive Bayes, and Multi-Layer Perceptron (MLP), in identifying fraudulent URLs was assessed. The Rastgele Orman algorithm outperformed the other models, displaying a 99.06 percent accuracy rate, indicating its superior ability to identify phishing URLs while maintaining a low rate of false alarms.

Benzer Tezler

  1. Detect malware url using naive bayes algorithm

    Naive bayes algoritmasını kullanarak kötü amaçlı yazılım url'sini algılama

    FATİMAH YASEEN HASHİM AL-ZUBAİDİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. OSMAN NURİ UÇAN

  2. Detection of malicious URLs using machine learning

    Başlık çevirisi yok

    RAED HAMEED GBURI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiAltınbaş Üniversitesi

    Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OSMAN NURİ UÇAN

  3. Machine learning for malicious URLs

    Kötü amaçlı URL'ler için makine öğrenimi

    ABDULRAHMAN ALI MOHAMMED ALRUBAYQI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilişim Teknolojileri Ana Bilim Dalı

    PROF. DR. GALİP CANSEVER

  4. Kötü Amaçlı URL'leri makine öğrenme teknikleriyle tespit etme

    Detecting Malicious URLs Through Machine Learning Techniques

    MHD RAJA ABOU HARB

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÜsküdar Üniversitesi

    Siber Güvenlik Ana Bilim Dalı

    PROF. DR. SERHAT ÖZEKES

  5. Enhancing the robustness of malicious URL detectors against label flipping attacks

    Kötü amaçlı URL algılayıcılarının etiket çevirme saldırılarına karşı dayanıklılığının artırılması

    NADA YOUSEF JADALLA

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Siber Güvenlik Ana Bilim Dalı

    DR. EHSAN NOWROOZİ