Türkçe istenmeyen e-postaların derin öğrenme ile tespit edilmesi

Detection of Turkish spam email by deep learning

PDF İndir

Tez No: 668010
Yazar: ERSİN ENES ERYILMAZ
Danışmanlar: PROF. DR. ERDAL KILIÇ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: Türkçe
Üniversite: Ondokuz Mayıs Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 83

Özet

E-postalar günümüzün en etkili iletişim araçlarından biridir. E-postaların içinde meşru e-postalar bulunduğu gibi istenmeyen e-postalar da bulunmaktadır. Yaramaz, önemsiz, gereksiz e-posta anlamına istenmeyen e-postalar internet kullanıcılarına maddi ve manevi ciddi zararlar vermekte olup internet trafiğini de meşgul etmektedir. İstenmeyen e-postaların tespiti için birçok yöntem bulunmakla birlikte mevcut çözümler çoğunlukla spam göndericilerin yenilikçiliğinin ve geliştirdiği tekniklerin gerisinde kalmaktadır. Bu tez çalışmasında literatürde bulunan istenmeyen e-postaların tespitinde kullanılan yöntemler incelenmiş olup Türkçe istenmeyen e-posta tespiti için 6 farklı model önerilmiştir. 4 farklı derin öğrenme modeli Python programlama dili Keras kütüphanesi kullanılarak Spyder geliştirme ortamı ile geliştirilmiştir. Önerilen derin öğrenme modelleri RNN, LSTM, GRU ve BLSTM modelleridir. 2 farklı derin öğrenme modeli ve hiperparametre ince ayarı ile en iyi hiperparametre seçimi internet tabanlı Google Colaboratory ile geliştirilmiştir. Google Colaboratory ile test edilen derin öğrenme modelleri BERT ve DistilBERT modelleridir. Google Colaboratory ile de Tensorflow tabanlı Keras kütüphanesi kullanılmaktadır. İstenmeyen e-posta tespitinde önerilen modeller geliştirilirken 400 adet istenmeyen, 400 adet meşru olmak üzere toplam 800 adet Türkçe e-posta veri kümesi kullanılmıştır. Bu modellerden 5 katlamalı çapraz doğrulama ile BLSTM 0.0373 ile en az test kaybına sahip olup LSTM ve BLSTM istenmeyen e-posta tespitinde %99.38 başarım oranına ulaşmıştır. İnce ayarlı BERT modeli ise %98.75 başarım oranına ulaşmıştır. RNN derin öğrenme modeli için hiperparametre ince ayarı Izgara Arama tahmin edici ile yapılmıştır. Hiperparametre ince ayarı yapılarak %97.66 başarım elde edilmiştir. Ayrıca tez çalışması kapsamında 350 adet e-posta içeren yeni bir Türkçe e-posta veri kümesi oluşturulmuştur. Daha sonraki çalışmalarda bu e-posta veri kümesinin boyutu artırılarak derin öğrenme modellerinde deneyler yapılması düşünülmektedir.

Özet (Çeviri)

E-mails are one of today's most effective communication tools. E-mails contain legitimate e-mails as well as spam e-mails. Spam e-mails, which mean naughty, junk, unnecessary e-mails, cause serious material and moral damage to internet users and also occupy internet traffic. Although there are many methods of detecting spam e-mails, current solutions often fall behind the innovation and techniques developed by spammers. In this thesis, the methods used in the detection of unsolicited e-mails in the literature were examined and 6 different models were proposed for the detection of spam e-mails in Turkish. 4 different deep learning models were developed with the Spyder development environment using the Python programming language Keras library. Recommended deep learning models are RNN, LSTM, GRU and BLSTM models. With 2 different deep learning models and hyperparameter fine-tuning, the best hyperparameter selection has been developed with the internet-based Google Colaboratory. Deep learning models tested with Google Colaboratory are BERT and DistilBERT models. Tensorflow-based Keras library is also used with Google Colaboratory. While developing the suggested models for spam detection, a total of 800 Turkish e-mail data sets, 400 of which are spam and 400 are legitimate, were used. Among these models, 5-fold cross validation has the least test loss with BLSTM 0.0373, and LSTM and BLSTM have achieved 99.38% success rate in spam detection. The fine tuned BERT model has achieved 98.75% performance rate. Hyperparameter fine-tuning for the RNN deep learning model was done with the Grid Search estimator. A performance of 97.66% was achieved by fine tuning the hyperparameter. Also, a new Turkish e-mail data set containing 350 e-mails was created within the scope of the thesis study. In future studies, it is planned to increase the size of this e-mail data set and experiment with deep learning models.

Benzer Tezler

Tez No
830420
Kelime gömme yaklaşımlarının iadesiz torbalanmasına dayanan uzun kısa süreli bellek mimarisi ve metin sınıflandırmasına uygulanması
Long-short term memory architecture based on non-returnable baggigng of word embedding approaches and an application to text classification
MUHAMMET OĞUZHAN YALÇIN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Muğla Sıtkı Koçman Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. NEVİN GÜLER DİNCER
Tez No
814317
İstenmeyen elektronik posta sınıflandırma probleminde etkin özellik seçimi
Effective feature selection in spam mail classification problem
NURİYE BAKTIR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YILMAZ ATAY
Tez No
323081
Yapay bağışıklık sistemi ile spam filtreleme
Artificial immune system with spam filter
CÜNEYT ÖZDEMİR
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET BEDRİ ÖZER
Tez No
517536
Veri madenciliği teknikleri ile istenmeyen Türkçe e-postaların önlenmesi üzerine bir uygulama
An application on preventing undesired e-mails in Turkish by using data mining techniques
SEFA SAYLAN
Yüksek Lisans
Türkçe
2018
İşletme Marmara Üniversitesi
İşletme Ana Bilim Dalı
DOÇ. DR. ÖZGÜR ÇAKIR
Tez No
841895
İstenmeyen e-postaların filtrelemesinde açı dönüşümü tabanlı içerik bağımsız bir yaklaşım
Filtering spam e-mails with a context-independent approach based on angle transformation
TUNCAY ÖZER
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Batman Üniversitesi
Bilgi Teknolojileri Ana Bilim Dalı
DOÇ. DR. YILMAZ KAYA

Geri Dön