Türkçe spam maillerin duygu analizi ve makine öğrenmesi yöntemleri ile analizi

Analysis of Turkish spam mails with sentiment analysis and machine learning methods

PDF İndir

Tez No: 871690
Yazar: YUNUS EMRE PALAVAR
Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ALBAYRAK
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Düzce Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Siber Güvenlik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 52

Özet

Çevrimiçi platformların kullanımının artmasıyla birlikte metin verilerinin hacmi artmakta ve bu verilere erişim kolaylaşmaktadır. Bu durum metin sınıflandırma alanında yapılan çalışmaların sayısının artmasına neden olmuştur. Özellikle spam tespiti ve duygu analizi gibi alanlarda metin sınıflandırma teknikleri büyük önem taşımaktadır. Literatürde İngilizce metinler üzerine yapılan çalışmaların sayısı oldukça fazla olmasına karşın Türkçe veriler üzerine yapılan çalışmalar oldukça kısıtlıdır. Bu çalışmanın amacı, Türkçe maillerin duygu analizi ve makine öğrenmesi teknikleri ile morfolojik analizini gerçekleştirmek ve modellerin spam ve normal mailleri tespit etmedeki başarısını karşılaştırmaktır. Bu amaçla literatürde yer alan iki Türkçe mail veri seti kullanılmıştır. Bu veri setleri spam ve normal olarak etiketlenmiş maillerden oluşmaktadır. Çalışma kapsamında bu iki veri setinden bir veri seti elde edilmiştir. Bu veri kümesine üç işlem uygulanmıştır ve bu uygulanan işlemler sonucu üç adet veri seti elde edilmiştir. İlk veri seti, verilere temel veri ön işleme adımları uygulanarak oluşturulmuştur. Bu adımda sırasıyla veriler küçük harflere dönüştürülmüştür. Daha sonra web sitesi adları“website”ve mail adresleri“email”olarak yeniden adlandırılmıştır. Buna ek olarak ilk veri seti olarak noktalama işaretleri ve sayısal ifadelerin kaldırılması elde edilmiştir. İkinci veri seti, ilk veri setinden Türkçe kökenli olmayan kelimeler ve dört harften kısa sözcüklerle oluşurulmuştur. Üçüncü veri seti ise ikinci veri seti ile birinci veri setinin kesişim kümesinden elde edilmiştir. Bu çalışma ile literatürde yer alan çalışmalarda etkisi göz ardı edilen Türkçe veri setleri içerisindeki Türkçe kökenli olmayan kelimelerin de sonuçlar üzerindeki etkisi gözlemlenmiştir. Bu veri kümeleri K-means ve Isolation Forest yöntemleri ile kümelenmiş ve bu yöntemlerin performansı değerlendirilmiştir. Ayrıca bu veri kümeleri üzerinde duygu analizi yapılarak spam ve normal maillerin duygu durumları gözlemlenmiştir. Son olarak veriler Naive Bayes, Random Forest, Logistic Regression ve Support Vector Machine sınıflandırma algoritmaları ile sınıflandırılmış ve yöntemlerin sonuçları doğruluk, kesinlik, geri çağırma ve f1-skor kriterleri ile değerlendirilmiştir. Çalışma sonucunda en yüksek başarım puanlarına ilk veri seti ile ulaşılmıştır. Naive Bayes ve destek vektör makinesi 0,92 doğruluk değeri ile en başarılı sonucu verirken Lojistik Regresyon ile 0,90 ve Random Forest ile 0,89 doğruluk değerleri elde edilmiştir. K-means ve Isolation Forest, orijinal veri kümesindeki etiketlere kıyasla verileri etiketlemede yetersiz kalmıştır. Yapılan işlemler sonucunda maillerin kategorik morfolojisi çıkarılmıştır.

Özet (Çeviri)

The increasing use of online platforms has led to a growth in the volume of text data, and access to these data has become easier. This has resulted in a rise in the number of studies conducted in the field of text classification. Text classification techniques are particularly important in areas such as spam detection and sentiment analysis. While there is a significant number of studies on English texts in the literature, studies on Turkish data are quite limited. The aim of this study is to perform sentiment analysis and morphological analysis of Turkish emails using machine learning techniques, and to compare the success of the models in detecting spam and normal emails. For this purpose, two Turkish email datasets from the literature, which are labeled as spam and normal, were used. A single dataset was obtained from these two datasets. Three processing steps were applied to this dataset, resulting in three datasets. The first dataset was created by applying basic data preprocessing steps to the data, such as converting to lowercase, renaming website names to“website”and email addresses to“email”, and removing punctuation marks and numerical expressions. The second dataset was created from the first dataset by removing non-Turkish words and words shorter than four characters. The third dataset was obtained from the intersection of the second and first datasets. This study observed the impact of non-Turkish words in Turkish datasets, which has been overlooked in previous studies. These data sets were clustered using K-means and Isolation Forest methods, and the performance of these methods was evaluated. Additionally, sentiment analysis was performed on these data sets to observe the sentiment states of spam and normal emails. Finally, the data was classified using Naive Bayes, Random Forest, Logistic Regression, and Support Vector Machine classification algorithms, and the results of the methods were evaluated using accuracy, precision, recall, and F1-score criteria. As a result of the study, the highest performance scores were achieved with the first dataset. Naive Bayes and Support Vector Machines achieved the most successful results with an accuracy of 0.92, while Logistic Regression achieved 0.90 and Random Forest achieved 0.89 accuracy. K-means and Isolation Forest were insufficient in labeling the data compared to the original dataset labels. As a result of the performed operations, the categorical morphology of the emails was extracted.

Benzer Tezler

Tez No
221935
Bilgisayar ağlarında açık kaynak kodlu güvenlik yazılımları ile anti-spam modülünün geliştirilmesi
Development of an anti-spam module using open source security softwares
ÖNDER ŞAHİNASLAN
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Maltepe Üniversitesi
Bilgisayar Mühendisliği Bölümü
PROF. DR. AHMET MESUT RAZBONYALI
Tez No
654150
Yapay arı kolonisi temelli lojistik regresyon sınıflayıcıların optimal tasarımı ve türkçe spam maillerin filtrelenmesinde başarımlarının incelenmesi
Optimal design of artificial bee colony based logistic regression classifiers and analysis of their performances in filtering turkish spam e-mails
BİLGE KAĞAN DEDETÜRK
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Erciyes Üniversitesi
Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BAHRİYE AKAY
Tez No
139380
Adaptive anti-spam filtering based on Turkish morphological analysis, artificial neural networks and Bayes filtering
Türkçe morfolojik çözümleme, yapay sinir ağları ve Bayes filtreleme tabanlı uyarlamalı spam-önler filtrelemesi
LEVENT ÖZGÜR
Yüksek Lisans
İngilizce
2003
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. TUNGA GÜNGÖR
PROF. DR. FİKRET GÜRGEN
Tez No
323081
Yapay bağışıklık sistemi ile spam filtreleme
Artificial immune system with spam filter
CÜNEYT ÖZDEMİR
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET BEDRİ ÖZER
Tez No
180253
Bayes yöntemi kullanarak istenmeyen elektronik postaların filtrelenmesi
Filtering spam e-mails with Bayesian approach
CÜNEYT ALTUNYAPRAK
Yüksek Lisans
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Muğla Üniversitesi
İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. TANER DİNÇER

Geri Dön