Context-sensitive keyword density based supervised learning techniques for detection of malicious web pages
içerik-duyarlı anahtar kelimelere dayalı gözetimli öğrenme teknikleriyle zararlı web sitesi tespiti
- Tez No: 442206
- Danışmanlar: PROF. DR. AHMET COŞAR, YRD. DOÇ. DR. TANSEL DÖKEROĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 82
Özet
Web sayfalarının zararlı olup olmadıklarına karar verilmek için genellikle kara listeler kullanılmaktadır. Bu listeler teknisyen veya operatörlerin her bir web sitesinin zararlı olup olmadığına karar verip, zararlı görünüyorsa bu listelere eklemesi ile oluşturulurlar. Ardından, bu listeler virüs koruma programları, web tarayıcılar ve çeşitli özelleşmiş ürünlerle bireylerin ve kurumların güvenlik sorunlarına çözüm getirmek için kullanılırlar. Ancak, hızla değişen ve büyüyen web sitesi sayısı ve içerikleri düşünüldüğünde bu yaklaşım ölçeklenebilir bir çözüm getirememektedir. Bu tez çalışmasında, Support Vector Machine, Maximum Entropy ve Extreme Learning Machine teknikleri kullanılarak web sayfalarının sınıflandırılması üzerine bir yöntem tasarlayıp analiz etmekteyiz. Bu makine öğrenimi modellerinin performansları yüz bin web sitesi örneğiyle bulunup karşılaştırılmaktadır. Web sayfalarının özellikleri HTML içerikleri kullanılarak hazırlandılar. Bu özellikler geleeksek özellik çıkarma yöntemleri olan kelimelerin içerikte bulunmasına dayanan ikili gösterim, anahtar kelime sayısı ve yeni bir yöntem olan anahtar kelime yoğunluğu ile ifade edildiler. Önerilen makine öğrenimi yöntemlerinin performansları analiz edildi. Deneysel sonuçlar, önerilen yöntemlerin web sayfalarının zararlı olup olmadıklarını uygun sürelerde çalışmaları sonucunda %98.24 oranına varan doğruluk oranı ile belirleyebildiklerini göstermiştir.
Özet (Çeviri)
Conventional methods use a black list in order to decide whether a web page is malicious or not. These black lists are generally produced by technicians or operators and used for the security purposes of the organizations, protection of software from web based virus attacks, web browsers, etc. However, the black-list approach is not a scalable solution for the frequently changing and rapidly growing number of web pages on the internet and their dynamic contents. In this thesis, we propose and analyze a method for the classification of the web pages by using Support Vector Machine, Maximum Entropy, and Extreme Learning Machine techniques. The performance of the proposed machine learning models are evaluated with 100K web pages. Features of web pages are generated by processing HTML contents and information is obtained using conventional feature extraction methodologies, such as existence of words, keyword frequencies, and a novel method based on keyword densities. The performances of machine learning methods employing various extracted features are analyzed and experimental results show that the proposed method can identify malicious web pages with a very high accuracy of up to 98.24% while also achieving practical web page processing times.
Benzer Tezler
- Numerical simulations of artificial triggering of equatorial spread-F
Başlık çevirisi yok
SERHAT ÇAKIR
- Afet ve acil durum toplanma alanlarının mekansal uygunluk ve kırılgan gruplar açısından değerlendirilmesi
Evaluation of disaster and emergency assembly areas in terms of spatial suitability and vulnerable groups
ZEHRA ATALAY
Yüksek Lisans
Türkçe
2025
Peyzaj Mimarlığıİstanbul Teknik ÜniversitesiPeyzaj Mimarlığı Ana Bilim Dalı
PROF. DR. FATMA AYÇİM TÜRER BAŞKAYA
- Çok kriterli karar verme analizi kullanılarak CBS tabanlı güneş tarlası yer seçimi: Antalya ili örneği
GIS-based solar farms site selection using multi criteria decision analysis: The case of Antalya / Turkey
ŞURA KIRCALI
Yüksek Lisans
Türkçe
2019
CoğrafyaAkdeniz ÜniversitesiUzaktan Algılama ve Coğrafi Bilgi Sistemleri Ana Bilim Dalı
DOÇ. DR. SERDAR SELİM
- Kentsel tasarımda ses ve mekan etkileşimi: Mekansal sesparametreleri ve görsel algı
The interaction of sound and space in urban design: Spatialsound parameters and visual perception
KÜBRA TÜRK
Yüksek Lisans
Türkçe
2025
Mimarlıkİstanbul Teknik ÜniversitesiKentsel Tasarım Ana Bilim Dalı
PROF. DR. MELTEM ERDEM KAYA
- Kolorektal kanser tanısı için güvenli çok dilli LLM tabanlı diyalog sistemi: Guardrails ve Monte Carlo risk puanlamasının entegrasyonu
A secure multilingual LLM-based dialogue system for colorectal cancer diagnosis: Integration of guardrails and Monte Carlo risk scoring
ABDURRAHİM KIZILAY
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAfyon Kocatepe Üniversitesiİnternet ve Bilişim Teknolojileri Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KEREM GENCER