Geri Dön

Comparison of pattern-matching algorithms on spam email detection

Spam emaıl tespiti üzerinde pattern-matchıng algoritmalarının karşılaştırılması

  1. Tez No: 537857
  2. Yazar: HEZHA M.TAREQ ABDULHADI ABDULHADI
  3. Danışmanlar: DOÇ. DR. CİHAN VAROL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 59

Özet

E-posta, tüm dünyadaki insanlar arasında mesajların aktarımı için en uygun yaklaşımlardan biridir. Özellikleri, özellikle de güvenilirliği, hızı ve düşük maliyeti, onu iş ve toplumun çoğu alanında insanlar arasında popüler ve yararlı kılar. Öte yandan, bu popülerlik siber uzayda e-posta saldırıları (spam) gibi yeni zararlı eylemler de yarattı. Spam, World Wide Web'in (WWW) boğulması için anonim göndericilerin oluşturduğu benzer mesajların birçok kopyasının tartışmasız nedenlerinden biridir, bu da e-posta hesabı sahibinin zaman / alan israfına yol açması ve büyük bir virüs ve kötü amaçlı yazılım tehdidi bulundurmasıdır. e-posta sağlayıcılarına. Makine öğrenimi ve içerik tabanlı filtreleme gibi istenmeyen posta sorunlarının üstesinden gelmek için çeşitli filtreler kullanılmasına rağmen, spam göndericiler bu savunma mekanizmalarını atlayabilir. Bu tez çalışmasında, spam e-posta tespiti için dizgi eşleme algoritmalarının kullanımını araştırıyoruz. Özellikle, bu çalışma altı en iyi bilinen dizgi eşleme algoritmalarını, yani En Uzun Ortak Alt Sıra (LCS), Levenshtein Mesafesi (LD), Jaro, Jaro-Winkler, Bi-gram ve Terim Frekansı'nın verimliliğini inceler ve karşılaştırır. Enron corpus ve CSDMC2010 spam veri kümesi olan iki farklı veri kümesinde Ters Belge Sıklığı (TFIDF). Bi-gram algoritmasının spam tespitinde en iyi performansı gösterdiğini gözlemledik; Enron corpus üzerinde çeşitli eşik değerleri için% 99,80 ve% 99,85'lik bir doğruluk elde etmiştir. Ayrıca, tüm eşik değerleri için CSDMC2010 veri kümesinde% 99,95 doğruluk elde etti.

Özet (Çeviri)

Email is one of the most expedient approaches to transferring messages amongst people all over the world. Its features, in particular, its reliability, speed, and low cost makes it popular and useful among people in most areas of business and society. On the other hand, this popularity has also created new harmful actions, such as email attacks (spam) in cyberspace. Spam is arguably one of the main causes for the drowning of the World Wide Web (WWW) with many copies of similar messages generated by anonymous senders, which yields to time/space wasting of the email account holder and holds a large virus and malware threat to email providers. In spite of employing various filters to handle spam problems, such as machine learning and content-based filtering, spammers can still bypass these defense mechanisms. In this dissertation, we investigate the use of string-matching algorithms for spam email detection. In particular, this work examines and compares the efficiency of six well-known string-matching algorithms, namely the Longest Common Subsequence (LCS), the Levenshtein Distance (LD), Jaro, Jaro-Winkler, Bi-gram, and Term Frequency-Inverse Document Frequency (TFIDF) on two various datasets, which are the Enron corpus and the CSDMC2010 spam dataset. We observed that the Bi-gram algorithm performs best in spam detection; it achieved an accuracy of 99.80% and 99.85% for a variety of threshold values on Enron corpus. Moreover, it achieved a 99.95% accuracy on the CSDMC2010 dataset for all threshold values.

Benzer Tezler

  1. Optimizing packed string matching on AVX2 platform

    AVX2 platformu üzerinde paketlenmiş dizgi eşleştirme ve optimizasyonu

    MEHMET AKİF AYDOĞMUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    DOÇ. DR. MUHAMMED OĞUZHAN KÜLEKCİ

  2. Yerel öznitelikler kullanarak görüntü indeksleme ve eşleme

    Image indexing and matching using local features

    ONUR ÇALIKUŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLGE GÜNSEL KALYONCU

  3. Estimating the selectivity of Sql Like queries

    Sql Like sorgularının seçiciliğini tahmin etme

    MEHMET AYTİMUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Şehir Üniversitesi

    Bilgisayar Ana Bilim Dalı

    YRD. DOÇ. DR. ALİ ÇAKMAK

  4. V.42 bis sıkıştırma yönteminin gerçekleşme ve başarım incelenmesi

    Implementation of V.42 bis compression procedure and performance results

    OSMAN ALİEFENDİOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. A. EMRE HARMANCI

  5. Rastgele markov alanları ve hücresel sinir ağları ile görüntü işleme

    Image processing with markow random fields and cellular neural networks

    MAHMUT ŞAMİL SAĞIROĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2001

    Elektrik ve Elektronik Mühendisliğiİstanbul Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OSMAN NURİ UÇAN