Geri Dön

Analysis of machine learning-based spam filtering techniques

Makine öğrenme tabanlı spam filtreleme teknikleri analizi

  1. Tez No: 495963
  2. Yazar: NAZLI NAZLI
  3. Danışmanlar: PROF. DR. ERDOĞAN DOĞDU, YRD. DOÇ. DR. ROYA CHOUPANİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Çankaya Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 79

Özet

Bu tezde, otamatik spam eposta filtreleme problem çalışıldı. Bazı varolan makina öğrenme algoritmaları açık bir veri seti üzerinde test edildi ve sonuçlar analiz edildi. Geliştirilen metotlar makina öğrenme ve yazı sınıflandırma teknikleri kullanılarak geliştirildi. Değişik veri setleri ve test metotları karşılaştırıldı. Ağırlıklı TF-IDF, SciKit Learn tabanlı ve Word2Vec vektörizasyonu kullanarak problem çözüm için metotlar geliştirildi. Eposta yazıları için farklı vektör gösterim metotları geliştirildi ve denetimli makina öğrenme algoritmaları ile epostalar spam veya ham olarak sınıflandırıldı. WEKA yazılım aracı kullanılarak epostaların vektör gösterimleri üzeride makina öğrenme sınıfladırma metotları uygulandı. Sınfılandırma için Destek Vektör Mekanizması SVM (POLY), SVM (RBF), Naive Bayes, Bayesian Ağları, J48 ve Rastgele Orman algoritmaları kullanıldı. Sınıflandırma yöntemlerinden elde ettiğimiz sonuçları karşılaştırdık ve analiz ettik. Sonuçlarımız Word2Vec vektörü ile SVM (Poly) algoritmasının 300 e-posta veri kümesi için 98.33% spam algılama hassasiyeti ile en iyi performansı göstermektedir.

Özet (Çeviri)

In this thesis, automatic spam e-mail detection problem is examined. Some existing machine learning algorithms are tested on an open dataset and the results are analyzed. The methods we developed have been implemented using machine learning and text classification techniques. We have used different data sets to develop and test the methods. The proposed methods for solving the problem are based on using weighted TF-IDF, SciKit Learn and Word2Vec vectorization. We developed and used vector representation methods for email text and then used supervised machine learning algorithms to classify emails as spam or ham. We used WEKA software tool to apply machine learning classification methods on vector representations of email. For classifications, we used the algorithms Support Vector Mechanism SVM (POLY), SVM (RBF), Naive Bayes, Bayesian Networks, J48 and Random Forest algorithms. We compared and analyzed the results we obtained from the classification methods. Our results show that the Word2Vec vector and the SVM (poly) algorithm perform better with 98.33% spam detection accuracy for 300 email data set.

Benzer Tezler

  1. Yapay arı kolonisi temelli lojistik regresyon sınıflayıcıların optimal tasarımı ve türkçe spam maillerin filtrelenmesinde başarımlarının incelenmesi

    Optimal design of artificial bee colony based logistic regression classifiers and analysis of their performances in filtering turkish spam e-mails

    BİLGE KAĞAN DEDETÜRK

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BAHRİYE AKAY

  2. Metin sınıflandırma teknikleri ile türkçe twitter duygu analizi

    Turkish twitter sentiment analysis using text classification techniques

    ÖNDER ÇOBAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLŞAH TÜMÜKLÜ ÖZYER

  3. İçerik tabanlı web sayfası kategorizasyonu

    Content based web page categorization

    EBUBEKİR BÜBER

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BANU DİRİ

  4. Kısa metin sınıflandırma için graf tabanlı gözetimli veri artırma yöntemi

    Graph based supervi̇sed data augmentati̇on method for short text classificati̇on

    OMAR BAYRAMLI

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Ticaret Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ARZU KAKIŞIM

  5. İstenmeyen e-postaların filtrelemesinde açı dönüşümü tabanlı içerik bağımsız bir yaklaşım

    Filtering spam e-mails with a context-independent approach based on angle transformation

    TUNCAY ÖZER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBatman Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    DOÇ. DR. YILMAZ KAYA