Geri Dön

Türkçe spam maillerin duygu analizi ve makine öğrenmesi yöntemleri ile analizi

Analysis of Turkish spam mails with sentiment analysis and machine learning methods

  1. Tez No: 871690
  2. Yazar: YUNUS EMRE PALAVAR
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ALBAYRAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Düzce Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Siber Güvenlik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 52

Özet

Çevrimiçi platformların kullanımının artmasıyla birlikte metin verilerinin hacmi artmakta ve bu verilere erişim kolaylaşmaktadır. Bu durum metin sınıflandırma alanında yapılan çalışmaların sayısının artmasına neden olmuştur. Özellikle spam tespiti ve duygu analizi gibi alanlarda metin sınıflandırma teknikleri büyük önem taşımaktadır. Literatürde İngilizce metinler üzerine yapılan çalışmaların sayısı oldukça fazla olmasına karşın Türkçe veriler üzerine yapılan çalışmalar oldukça kısıtlıdır. Bu çalışmanın amacı, Türkçe maillerin duygu analizi ve makine öğrenmesi teknikleri ile morfolojik analizini gerçekleştirmek ve modellerin spam ve normal mailleri tespit etmedeki başarısını karşılaştırmaktır. Bu amaçla literatürde yer alan iki Türkçe mail veri seti kullanılmıştır. Bu veri setleri spam ve normal olarak etiketlenmiş maillerden oluşmaktadır. Çalışma kapsamında bu iki veri setinden bir veri seti elde edilmiştir. Bu veri kümesine üç işlem uygulanmıştır ve bu uygulanan işlemler sonucu üç adet veri seti elde edilmiştir. İlk veri seti, verilere temel veri ön işleme adımları uygulanarak oluşturulmuştur. Bu adımda sırasıyla veriler küçük harflere dönüştürülmüştür. Daha sonra web sitesi adları“website”ve mail adresleri“email”olarak yeniden adlandırılmıştır. Buna ek olarak ilk veri seti olarak noktalama işaretleri ve sayısal ifadelerin kaldırılması elde edilmiştir. İkinci veri seti, ilk veri setinden Türkçe kökenli olmayan kelimeler ve dört harften kısa sözcüklerle oluşurulmuştur. Üçüncü veri seti ise ikinci veri seti ile birinci veri setinin kesişim kümesinden elde edilmiştir. Bu çalışma ile literatürde yer alan çalışmalarda etkisi göz ardı edilen Türkçe veri setleri içerisindeki Türkçe kökenli olmayan kelimelerin de sonuçlar üzerindeki etkisi gözlemlenmiştir. Bu veri kümeleri K-means ve Isolation Forest yöntemleri ile kümelenmiş ve bu yöntemlerin performansı değerlendirilmiştir. Ayrıca bu veri kümeleri üzerinde duygu analizi yapılarak spam ve normal maillerin duygu durumları gözlemlenmiştir. Son olarak veriler Naive Bayes, Random Forest, Logistic Regression ve Support Vector Machine sınıflandırma algoritmaları ile sınıflandırılmış ve yöntemlerin sonuçları doğruluk, kesinlik, geri çağırma ve f1-skor kriterleri ile değerlendirilmiştir. Çalışma sonucunda en yüksek başarım puanlarına ilk veri seti ile ulaşılmıştır. Naive Bayes ve destek vektör makinesi 0,92 doğruluk değeri ile en başarılı sonucu verirken Lojistik Regresyon ile 0,90 ve Random Forest ile 0,89 doğruluk değerleri elde edilmiştir. K-means ve Isolation Forest, orijinal veri kümesindeki etiketlere kıyasla verileri etiketlemede yetersiz kalmıştır. Yapılan işlemler sonucunda maillerin kategorik morfolojisi çıkarılmıştır.

Özet (Çeviri)

The increasing use of online platforms has led to a growth in the volume of text data, and access to these data has become easier. This has resulted in a rise in the number of studies conducted in the field of text classification. Text classification techniques are particularly important in areas such as spam detection and sentiment analysis. While there is a significant number of studies on English texts in the literature, studies on Turkish data are quite limited. The aim of this study is to perform sentiment analysis and morphological analysis of Turkish emails using machine learning techniques, and to compare the success of the models in detecting spam and normal emails. For this purpose, two Turkish email datasets from the literature, which are labeled as spam and normal, were used. A single dataset was obtained from these two datasets. Three processing steps were applied to this dataset, resulting in three datasets. The first dataset was created by applying basic data preprocessing steps to the data, such as converting to lowercase, renaming website names to“website”and email addresses to“email”, and removing punctuation marks and numerical expressions. The second dataset was created from the first dataset by removing non-Turkish words and words shorter than four characters. The third dataset was obtained from the intersection of the second and first datasets. This study observed the impact of non-Turkish words in Turkish datasets, which has been overlooked in previous studies. These data sets were clustered using K-means and Isolation Forest methods, and the performance of these methods was evaluated. Additionally, sentiment analysis was performed on these data sets to observe the sentiment states of spam and normal emails. Finally, the data was classified using Naive Bayes, Random Forest, Logistic Regression, and Support Vector Machine classification algorithms, and the results of the methods were evaluated using accuracy, precision, recall, and F1-score criteria. As a result of the study, the highest performance scores were achieved with the first dataset. Naive Bayes and Support Vector Machines achieved the most successful results with an accuracy of 0.92, while Logistic Regression achieved 0.90 and Random Forest achieved 0.89 accuracy. K-means and Isolation Forest were insufficient in labeling the data compared to the original dataset labels. As a result of the performed operations, the categorical morphology of the emails was extracted.

Benzer Tezler

  1. Bilgisayar ağlarında açık kaynak kodlu güvenlik yazılımları ile anti-spam modülünün geliştirilmesi

    Development of an anti-spam module using open source security softwares

    ÖNDER ŞAHİNASLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. AHMET MESUT RAZBONYALI

  2. Yapay arı kolonisi temelli lojistik regresyon sınıflayıcıların optimal tasarımı ve türkçe spam maillerin filtrelenmesinde başarımlarının incelenmesi

    Optimal design of artificial bee colony based logistic regression classifiers and analysis of their performances in filtering turkish spam e-mails

    BİLGE KAĞAN DEDETÜRK

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BAHRİYE AKAY

  3. Adaptive anti-spam filtering based on Turkish morphological analysis, artificial neural networks and Bayes filtering

    Türkçe morfolojik çözümleme, yapay sinir ağları ve Bayes filtreleme tabanlı uyarlamalı spam-önler filtrelemesi

    LEVENT ÖZGÜR

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. TUNGA GÜNGÖR

    PROF. DR. FİKRET GÜRGEN

  4. Yapay bağışıklık sistemi ile spam filtreleme

    Artificial immune system with spam filter

    CÜNEYT ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET BEDRİ ÖZER

  5. Sosyal ağlara yönelik öğrenmeye dayalı bir spam hesap tespit modeli ve uygulaması

    A spam account detection model based on learning and its application for social networks

    OĞUZHAN ÇITLAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İBRAHİM ALPER DOĞRU

    DR. MURAT DÖRTERLER