Context-sensitive keyword density based supervised learning techniques for detection of malicious web pages
içerik-duyarlı anahtar kelimelere dayalı gözetimli öğrenme teknikleriyle zararlı web sitesi tespiti
- Tez No: 442206
- Danışmanlar: PROF. DR. AHMET COŞAR, YRD. DOÇ. DR. TANSEL DÖKEROĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 82
Özet
Web sayfalarının zararlı olup olmadıklarına karar verilmek için genellikle kara listeler kullanılmaktadır. Bu listeler teknisyen veya operatörlerin her bir web sitesinin zararlı olup olmadığına karar verip, zararlı görünüyorsa bu listelere eklemesi ile oluşturulurlar. Ardından, bu listeler virüs koruma programları, web tarayıcılar ve çeşitli özelleşmiş ürünlerle bireylerin ve kurumların güvenlik sorunlarına çözüm getirmek için kullanılırlar. Ancak, hızla değişen ve büyüyen web sitesi sayısı ve içerikleri düşünüldüğünde bu yaklaşım ölçeklenebilir bir çözüm getirememektedir. Bu tez çalışmasında, Support Vector Machine, Maximum Entropy ve Extreme Learning Machine teknikleri kullanılarak web sayfalarının sınıflandırılması üzerine bir yöntem tasarlayıp analiz etmekteyiz. Bu makine öğrenimi modellerinin performansları yüz bin web sitesi örneğiyle bulunup karşılaştırılmaktadır. Web sayfalarının özellikleri HTML içerikleri kullanılarak hazırlandılar. Bu özellikler geleeksek özellik çıkarma yöntemleri olan kelimelerin içerikte bulunmasına dayanan ikili gösterim, anahtar kelime sayısı ve yeni bir yöntem olan anahtar kelime yoğunluğu ile ifade edildiler. Önerilen makine öğrenimi yöntemlerinin performansları analiz edildi. Deneysel sonuçlar, önerilen yöntemlerin web sayfalarının zararlı olup olmadıklarını uygun sürelerde çalışmaları sonucunda %98.24 oranına varan doğruluk oranı ile belirleyebildiklerini göstermiştir.
Özet (Çeviri)
Conventional methods use a black list in order to decide whether a web page is malicious or not. These black lists are generally produced by technicians or operators and used for the security purposes of the organizations, protection of software from web based virus attacks, web browsers, etc. However, the black-list approach is not a scalable solution for the frequently changing and rapidly growing number of web pages on the internet and their dynamic contents. In this thesis, we propose and analyze a method for the classification of the web pages by using Support Vector Machine, Maximum Entropy, and Extreme Learning Machine techniques. The performance of the proposed machine learning models are evaluated with 100K web pages. Features of web pages are generated by processing HTML contents and information is obtained using conventional feature extraction methodologies, such as existence of words, keyword frequencies, and a novel method based on keyword densities. The performances of machine learning methods employing various extracted features are analyzed and experimental results show that the proposed method can identify malicious web pages with a very high accuracy of up to 98.24% while also achieving practical web page processing times.
Benzer Tezler
- Numerical simulations of artificial triggering of equatorial spread-F
Başlık çevirisi yok
SERHAT ÇAKIR
- Çok kriterli karar verme analizi kullanılarak CBS tabanlı güneş tarlası yer seçimi: Antalya ili örneği
GIS-based solar farms site selection using multi criteria decision analysis: The case of Antalya / Turkey
ŞURA KIRCALI
Yüksek Lisans
Türkçe
2019
CoğrafyaAkdeniz ÜniversitesiUzaktan Algılama ve Coğrafi Bilgi Sistemleri Ana Bilim Dalı
DOÇ. DR. SERDAR SELİM
- İslam bahçelerinde suyun kullanımı, peyzaj mimarlığı disiplini akademik çalışmaları üzerinden değerlendirilmesi
The use of water in islamic gardens, evaluation of landscape architecture discipline through academic studies
ALİ YUSUF ÇİZMECİOĞLU
Yüksek Lisans
Türkçe
2024
Peyzaj Mimarlığıİstanbul Teknik ÜniversitesiPeyzaj Mimarlığı Ana Bilim Dalı
PROF. DR. FATMA AYÇİM TÜRER BAŞKAYA
- Image data management in moods
Moods için görüntü veri yönetimi
TOLGA GEŞLİ
Yüksek Lisans
İngilizce
1992
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiPROF. DR. ASUMAN DOĞAÇ