Geri Dön

Türkçe istenmeyen e-postaların derin öğrenme ile tespit edilmesi

Detection of Turkish spam email by deep learning

  1. Tez No: 668010
  2. Yazar: ERSİN ENES ERYILMAZ
  3. Danışmanlar: PROF. DR. ERDAL KILIÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Ondokuz Mayıs Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 83

Özet

E-postalar günümüzün en etkili iletişim araçlarından biridir. E-postaların içinde meşru e-postalar bulunduğu gibi istenmeyen e-postalar da bulunmaktadır. Yaramaz, önemsiz, gereksiz e-posta anlamına istenmeyen e-postalar internet kullanıcılarına maddi ve manevi ciddi zararlar vermekte olup internet trafiğini de meşgul etmektedir. İstenmeyen e-postaların tespiti için birçok yöntem bulunmakla birlikte mevcut çözümler çoğunlukla spam göndericilerin yenilikçiliğinin ve geliştirdiği tekniklerin gerisinde kalmaktadır. Bu tez çalışmasında literatürde bulunan istenmeyen e-postaların tespitinde kullanılan yöntemler incelenmiş olup Türkçe istenmeyen e-posta tespiti için 6 farklı model önerilmiştir. 4 farklı derin öğrenme modeli Python programlama dili Keras kütüphanesi kullanılarak Spyder geliştirme ortamı ile geliştirilmiştir. Önerilen derin öğrenme modelleri RNN, LSTM, GRU ve BLSTM modelleridir. 2 farklı derin öğrenme modeli ve hiperparametre ince ayarı ile en iyi hiperparametre seçimi internet tabanlı Google Colaboratory ile geliştirilmiştir. Google Colaboratory ile test edilen derin öğrenme modelleri BERT ve DistilBERT modelleridir. Google Colaboratory ile de Tensorflow tabanlı Keras kütüphanesi kullanılmaktadır. İstenmeyen e-posta tespitinde önerilen modeller geliştirilirken 400 adet istenmeyen, 400 adet meşru olmak üzere toplam 800 adet Türkçe e-posta veri kümesi kullanılmıştır. Bu modellerden 5 katlamalı çapraz doğrulama ile BLSTM 0.0373 ile en az test kaybına sahip olup LSTM ve BLSTM istenmeyen e-posta tespitinde %99.38 başarım oranına ulaşmıştır. İnce ayarlı BERT modeli ise %98.75 başarım oranına ulaşmıştır. RNN derin öğrenme modeli için hiperparametre ince ayarı Izgara Arama tahmin edici ile yapılmıştır. Hiperparametre ince ayarı yapılarak %97.66 başarım elde edilmiştir. Ayrıca tez çalışması kapsamında 350 adet e-posta içeren yeni bir Türkçe e-posta veri kümesi oluşturulmuştur. Daha sonraki çalışmalarda bu e-posta veri kümesinin boyutu artırılarak derin öğrenme modellerinde deneyler yapılması düşünülmektedir.

Özet (Çeviri)

E-mails are one of today's most effective communication tools. E-mails contain legitimate e-mails as well as spam e-mails. Spam e-mails, which mean naughty, junk, unnecessary e-mails, cause serious material and moral damage to internet users and also occupy internet traffic. Although there are many methods of detecting spam e-mails, current solutions often fall behind the innovation and techniques developed by spammers. In this thesis, the methods used in the detection of unsolicited e-mails in the literature were examined and 6 different models were proposed for the detection of spam e-mails in Turkish. 4 different deep learning models were developed with the Spyder development environment using the Python programming language Keras library. Recommended deep learning models are RNN, LSTM, GRU and BLSTM models. With 2 different deep learning models and hyperparameter fine-tuning, the best hyperparameter selection has been developed with the internet-based Google Colaboratory. Deep learning models tested with Google Colaboratory are BERT and DistilBERT models. Tensorflow-based Keras library is also used with Google Colaboratory. While developing the suggested models for spam detection, a total of 800 Turkish e-mail data sets, 400 of which are spam and 400 are legitimate, were used. Among these models, 5-fold cross validation has the least test loss with BLSTM 0.0373, and LSTM and BLSTM have achieved 99.38% success rate in spam detection. The fine tuned BERT model has achieved 98.75% performance rate. Hyperparameter fine-tuning for the RNN deep learning model was done with the Grid Search estimator. A performance of 97.66% was achieved by fine tuning the hyperparameter. Also, a new Turkish e-mail data set containing 350 e-mails was created within the scope of the thesis study. In future studies, it is planned to increase the size of this e-mail data set and experiment with deep learning models.

Benzer Tezler

  1. Kelime gömme yaklaşımlarının iadesiz torbalanmasına dayanan uzun kısa süreli bellek mimarisi ve metin sınıflandırmasına uygulanması

    Long-short term memory architecture based on non-returnable baggigng of word embedding approaches and an application to text classification

    MUHAMMET OĞUZHAN YALÇIN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMuğla Sıtkı Koçman Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. NEVİN GÜLER DİNCER

  2. İstenmeyen elektronik posta sınıflandırma probleminde etkin özellik seçimi

    Effective feature selection in spam mail classification problem

    NURİYE BAKTIR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YILMAZ ATAY

  3. Yapay bağışıklık sistemi ile spam filtreleme

    Artificial immune system with spam filter

    CÜNEYT ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET BEDRİ ÖZER

  4. Veri madenciliği teknikleri ile istenmeyen Türkçe e-postaların önlenmesi üzerine bir uygulama

    An application on preventing undesired e-mails in Turkish by using data mining techniques

    SEFA SAYLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    İşletmeMarmara Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ÖZGÜR ÇAKIR

  5. İstenmeyen e-postaların filtrelemesinde açı dönüşümü tabanlı içerik bağımsız bir yaklaşım

    Filtering spam e-mails with a context-independent approach based on angle transformation

    TUNCAY ÖZER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBatman Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    DOÇ. DR. YILMAZ KAYA