Geri Dön

Spam mesajlarının makine öğrenmesi yöntemleri ile tespiti

Detection of spam messages with machine learning methods

  1. Tez No: 924425
  2. Yazar: YUSUF BİLGEN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MAHMUT KAYA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Siirt Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Türk İşaret Dili Tercümanlığı Bilim Dalı
  13. Sayfa Sayısı: 81

Özet

Spam mesajlar, dijital iletişimde kullanıcıların ruh sağlığını, kişisel güvenliğini ve ağ kaynaklarını tehdit eden önemli bir sorun haline gelmiştir. Geleneksel spam tespit yöntemleri, düşük tespit oranları ve yüksek yanlış pozitifler nedeniyle yetersiz kalmakta ve daha etkili çözümlere duyulan ihtiyacı ortaya koymaktadır. Bu tez çalışmasında, spam tespiti için makine öğrenmesi tabanlı çeşitli modeller ve hibrit yaklaşımlar incelenerek en yüksek doğruluk oranını sağlayacak model ve parametre kombinasyonları analiz edilmiştir. Önerilen model oluşturulurken, Otokodlayıcı, Çok katmanlı algılayıcı (MLP), XGBoost, Naive Bayes, Lojistik Regresyon, Destek Vektör Makineleri (SVM), Yapay Sinir Ağları (ANN), Rastgele Orman ve Geçitli Tekrarlayan Birim (GRU) modellerini içeren hem yalın hem de hibrit modellerin kullanılmıştır. Yapılan araştırma ve testler sonucunda spam tespiti için geçitli tekrarlayan birim (GRU), MLP, Otokodlayıcı+XGBoost ve çoğunluk oylama algoritmasını entegre eden topluluk öğrenme tabanlı hibrit bir model olan EGMA önerilmektedir. Model, metin vektörleştirme teknikleri olarak Terim Frekansı-Ters Belge Frekansı (TF-IDF) ve CountVectorizer kullanarak ek istatistiksel özellikler ile performansını artırmaktadır. Önerilen modelin performansı SMS Spam Koleksiyonu, E-posta Spam, Enron-Spam, Super SMS ve UtkMl'nin Twitter Spam veri kümeleri üzerinde test edilerek %95,09 ile %99,28 arasında değişen yüksek doğruluk oranları elde edilmiştir. Sonuçlar, EGMA modelinin hem bireysel yöntemlerden hem de literatürdeki diğer çalışmalardan üstün performans gösterdiğini ve spam mesajların etkili bir şekilde tespit edilmesine katkı sağlayan güçlü bir çözüm sunduğunu ortaya koymaktadır.

Özet (Çeviri)

Spam messages have become a major problem in digital communication, threatening users' mental health, personal security and network resources. Traditional spam detection methods suffer from low detection rates and high false positives, highlighting the need for more effective solutions. In this thesis, various machine learning based models and hybrid approaches for spam detection are examined and the model and parameter combinations that will provide the highest accuracy rate are analyzed. The proposed model was developed using both lean and hybrid approaches, incorporating Autoencoder, Multilayer Perceptron (MLP), XGBoost, Naive Bayes, Logistic Regression, Support Vector Machines (SVM), Artificial Neural Networks (ANN), Random Forest, and Gated Recurrent Unit (GRU) models. As a result of the research and testing, we propose EGMA, an ensemble learning based hybrid model that integrates a gated recurrent unit (GRU), multilayer perceptron (MLP), Autoencoder+XGBoost and majority voting algorithm for spam detection. The model improves its performance with additional statistical features using Term Frequency-Inverse Document Frequency (TF-IDF) and CountVectorizer as text vectorization techniques. The performance of the proposed model is tested on the SMS Spam Collection, Email Spam, Enron-Spam, Super SMS and UtkMl's Twitter Spam datasets, achieving high accuracy rates ranging from 95,09% to 99,28%. The results show that the EGMA model outperforms both individual methods and other works in the literature and provides a powerful solution that contributes to the effective detection of spam messages.

Benzer Tezler

  1. Makine öğrenmesi yöntemleriyle doğruluğu yüksek SMS spam tespiti

    Highly accuracy SMS spam detection with machine learning methods

    TUĞÇE ŞENOL

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSivas Cumhuriyet Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HİDAYET TAKCI

  2. Metin verilerinde içerik tabanlı spam tespiti

    Content based spam detection in text data

    HAMDULLAH KARAMOLLAOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. İBRAHİM ALPER DOĞRU

  3. Metin sınıflandırma teknikleri ile türkçe twitter duygu analizi

    Turkish twitter sentiment analysis using text classification techniques

    ÖNDER ÇOBAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLŞAH TÜMÜKLÜ ÖZYER

  4. Makine öğrenmesi yöntemleri ile içerik tabanlı sms filtreleme uygulaması geliştirilmesi

    Development of content based sms filtering application with machine learning methods

    ONUR KARASOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMuğla Sıtkı Koçman Üniversitesi

    Bilişim Sistemleri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SERKAN BALLI

  5. Adversarial attacks against machine learning algorithms at training stage

    Eğitim aşamasındaki ̇makina öğrenme algoritmalarına karşı gerçekleştirilen çekişmeli saldırılar

    FAHRİ ANIL YERLİKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞERİF BAHTİYAR