Geri Dön

Context-sensitive keyword density based supervised learning techniques for detection of malicious web pages

içerik-duyarlı anahtar kelimelere dayalı gözetimli öğ‡renme teknikleriyle zararlı web sitesi tespiti

  1. Tez No: 442206
  2. Yazar: BETÜL ALTAY
  3. Danışmanlar: PROF. DR. AHMET COŞAR, YRD. DOÇ. DR. TANSEL DÖKEROĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 82

Özet

Web sayfalarının zararlı olup olmadıklarına karar verilmek için genellikle kara listeler kullanılmaktadır. Bu listeler teknisyen veya operatörlerin her bir web sitesinin zararlı olup olmadığına karar verip, zararlı görünüyorsa bu listelere eklemesi ile oluşturulurlar. Ardından, bu listeler virüs koruma programları, web tarayıcılar ve çeşitli özelleşmiş ürünlerle bireylerin ve kurumların güvenlik sorunlarına çözüm getirmek için kullanılırlar. Ancak, hızla değişen ve büyüyen web sitesi sayısı ve içerikleri düşünüldüğünde bu yaklaşım ölçeklenebilir bir çözüm getirememektedir. Bu tez çalışmasında, Support Vector Machine, Maximum Entropy ve Extreme Learning Machine teknikleri kullanılarak web sayfalarının sınıflandırılması üzerine bir yöntem tasarlayıp analiz etmekteyiz. Bu makine öğrenimi modellerinin performansları yüz bin web sitesi örneğiyle bulunup karşılaştırılmaktadır. Web sayfalarının özellikleri HTML içerikleri kullanılarak hazırlandılar. Bu özellikler geleeksek özellik çıkarma yöntemleri olan kelimelerin içerikte bulunmasına dayanan ikili gösterim, anahtar kelime sayısı ve yeni bir yöntem olan anahtar kelime yoğunluğu ile ifade edildiler. Önerilen makine öğrenimi yöntemlerinin performansları analiz edildi. Deneysel sonuçlar, önerilen yöntemlerin web sayfalarının zararlı olup olmadıklarını uygun sürelerde çalışmaları sonucunda %98.24 oranına varan doğruluk oranı ile belirleyebildiklerini göstermiştir.

Özet (Çeviri)

Conventional methods use a black list in order to decide whether a web page is malicious or not. These black lists are generally produced by technicians or operators and used for the security purposes of the organizations, protection of software from web based virus attacks, web browsers, etc. However, the black-list approach is not a scalable solution for the frequently changing and rapidly growing number of web pages on the internet and their dynamic contents. In this thesis, we propose and analyze a method for the classification of the web pages by using Support Vector Machine, Maximum Entropy, and Extreme Learning Machine techniques. The performance of the proposed machine learning models are evaluated with 100K web pages. Features of web pages are generated by processing HTML contents and information is obtained using conventional feature extraction methodologies, such as existence of words, keyword frequencies, and a novel method based on keyword densities. The performances of machine learning methods employing various extracted features are analyzed and experimental results show that the proposed method can identify malicious web pages with a very high accuracy of up to 98.24% while also achieving practical web page processing times.

Benzer Tezler

  1. Afet ve acil durum toplanma alanlarının mekansal uygunluk ve kırılgan gruplar açısından değerlendirilmesi

    Evaluation of disaster and emergency assembly areas in terms of spatial suitability and vulnerable groups

    ZEHRA ATALAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Peyzaj Mimarlığıİstanbul Teknik Üniversitesi

    Peyzaj Mimarlığı Ana Bilim Dalı

    PROF. DR. FATMA AYÇİM TÜRER BAŞKAYA

  2. Çok kriterli karar verme analizi kullanılarak CBS tabanlı güneş tarlası yer seçimi: Antalya ili örneği

    GIS-based solar farms site selection using multi criteria decision analysis: The case of Antalya / Turkey

    ŞURA KIRCALI

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    CoğrafyaAkdeniz Üniversitesi

    Uzaktan Algılama ve Coğrafi Bilgi Sistemleri Ana Bilim Dalı

    DOÇ. DR. SERDAR SELİM

  3. Kentsel tasarımda ses ve mekan etkileşimi: Mekansal sesparametreleri ve görsel algı

    The interaction of sound and space in urban design: Spatialsound parameters and visual perception

    KÜBRA TÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Mimarlıkİstanbul Teknik Üniversitesi

    Kentsel Tasarım Ana Bilim Dalı

    PROF. DR. MELTEM ERDEM KAYA

  4. Kolorektal kanser tanısı için güvenli çok dilli LLM tabanlı diyalog sistemi: Guardrails ve Monte Carlo risk puanlamasının entegrasyonu

    A secure multilingual LLM-based dialogue system for colorectal cancer diagnosis: Integration of guardrails and Monte Carlo risk scoring

    ABDURRAHİM KIZILAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAfyon Kocatepe Üniversitesi

    İnternet ve Bilişim Teknolojileri Yönetimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KEREM GENCER