Comparison of pattern-matching algorithms on spam email detection
Spam emaıl tespiti üzerinde pattern-matchıng algoritmalarının karşılaştırılması
- Tez No: 537857
- Danışmanlar: DOÇ. DR. CİHAN VAROL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Fırat Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 59
Özet
E-posta, tüm dünyadaki insanlar arasında mesajların aktarımı için en uygun yaklaşımlardan biridir. Özellikleri, özellikle de güvenilirliği, hızı ve düşük maliyeti, onu iş ve toplumun çoğu alanında insanlar arasında popüler ve yararlı kılar. Öte yandan, bu popülerlik siber uzayda e-posta saldırıları (spam) gibi yeni zararlı eylemler de yarattı. Spam, World Wide Web'in (WWW) boğulması için anonim göndericilerin oluşturduğu benzer mesajların birçok kopyasının tartışmasız nedenlerinden biridir, bu da e-posta hesabı sahibinin zaman / alan israfına yol açması ve büyük bir virüs ve kötü amaçlı yazılım tehdidi bulundurmasıdır. e-posta sağlayıcılarına. Makine öğrenimi ve içerik tabanlı filtreleme gibi istenmeyen posta sorunlarının üstesinden gelmek için çeşitli filtreler kullanılmasına rağmen, spam göndericiler bu savunma mekanizmalarını atlayabilir. Bu tez çalışmasında, spam e-posta tespiti için dizgi eşleme algoritmalarının kullanımını araştırıyoruz. Özellikle, bu çalışma altı en iyi bilinen dizgi eşleme algoritmalarını, yani En Uzun Ortak Alt Sıra (LCS), Levenshtein Mesafesi (LD), Jaro, Jaro-Winkler, Bi-gram ve Terim Frekansı'nın verimliliğini inceler ve karşılaştırır. Enron corpus ve CSDMC2010 spam veri kümesi olan iki farklı veri kümesinde Ters Belge Sıklığı (TFIDF). Bi-gram algoritmasının spam tespitinde en iyi performansı gösterdiğini gözlemledik; Enron corpus üzerinde çeşitli eşik değerleri için% 99,80 ve% 99,85'lik bir doğruluk elde etmiştir. Ayrıca, tüm eşik değerleri için CSDMC2010 veri kümesinde% 99,95 doğruluk elde etti.
Özet (Çeviri)
Email is one of the most expedient approaches to transferring messages amongst people all over the world. Its features, in particular, its reliability, speed, and low cost makes it popular and useful among people in most areas of business and society. On the other hand, this popularity has also created new harmful actions, such as email attacks (spam) in cyberspace. Spam is arguably one of the main causes for the drowning of the World Wide Web (WWW) with many copies of similar messages generated by anonymous senders, which yields to time/space wasting of the email account holder and holds a large virus and malware threat to email providers. In spite of employing various filters to handle spam problems, such as machine learning and content-based filtering, spammers can still bypass these defense mechanisms. In this dissertation, we investigate the use of string-matching algorithms for spam email detection. In particular, this work examines and compares the efficiency of six well-known string-matching algorithms, namely the Longest Common Subsequence (LCS), the Levenshtein Distance (LD), Jaro, Jaro-Winkler, Bi-gram, and Term Frequency-Inverse Document Frequency (TFIDF) on two various datasets, which are the Enron corpus and the CSDMC2010 spam dataset. We observed that the Bi-gram algorithm performs best in spam detection; it achieved an accuracy of 99.80% and 99.85% for a variety of threshold values on Enron corpus. Moreover, it achieved a 99.95% accuracy on the CSDMC2010 dataset for all threshold values.
Benzer Tezler
- Optimizing packed string matching on AVX2 platform
AVX2 platformu üzerinde paketlenmiş dizgi eşleştirme ve optimizasyonu
MEHMET AKİF AYDOĞMUŞ
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
DOÇ. DR. MUHAMMED OĞUZHAN KÜLEKCİ
- Yerel öznitelikler kullanarak görüntü indeksleme ve eşleme
Image indexing and matching using local features
ONUR ÇALIKUŞ
Yüksek Lisans
Türkçe
2016
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL KALYONCU
- Estimating the selectivity of Sql Like queries
Sql Like sorgularının seçiciliğini tahmin etme
MEHMET AYTİMUR
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Şehir ÜniversitesiBilgisayar Ana Bilim Dalı
YRD. DOÇ. DR. ALİ ÇAKMAK
- V.42 bis sıkıştırma yönteminin gerçekleşme ve başarım incelenmesi
Implementation of V.42 bis compression procedure and performance results
OSMAN ALİEFENDİOĞLU
Yüksek Lisans
Türkçe
1992
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. A. EMRE HARMANCI
- Rastgele markov alanları ve hücresel sinir ağları ile görüntü işleme
Image processing with markow random fields and cellular neural networks
MAHMUT ŞAMİL SAĞIROĞLU
Yüksek Lisans
Türkçe
2001
Elektrik ve Elektronik Mühendisliğiİstanbul ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. OSMAN NURİ UÇAN