İstenmeyen elektronik posta sınıflandırma probleminde etkin özellik seçimi
Effective feature selection in spam mail classification problem
- Tez No: 814317
- Danışmanlar: DR. ÖĞR. ÜYESİ YILMAZ ATAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 142
Özet
Günümüzde hızlı ve güvenli iletişim büyük önem taşımaktadır. Bu bağlamda elektronik postalar, kullanım kolaylığı ve düşük maliyet gibi sebeplerle sıklıkla tercih edilmektedir. Ancak, e-posta kullanımının artmasıyla birlikte iletişim güvenliği riskleri de artmaktadır. En yaygın kötüye kullanım türlerinden olan istenmeyen e-postalar, kimlik avı, dolandırıcılık ve haksız kazanç gibi amaçlarla kullanılan zararlı elektronik iletilerdir. Güvenli iletişim için e-posta sistemlerini zararlı araçlardan korumak amacıyla sınıflandırma yöntemleri kullanılmakta ve sınıflandırma performansını artırmak için özellik seçimi çalışmaları yapılmaktadır. Özellik seçimi, sınıflandırma performansını etkileyen farklı tekniklerle en uygun ve önemli özellikleri seçerek başarılı sonuçlar elde etmeyi amaçlayan bir optimizasyon sürecidir. Bu çalışmada, spam sınıflandırma probleminin özellik seçim sürecinde ele alınabilecek filtreleme tabanlı tekniklerden birliktelik kuralı madenciliği, varyans eşiği gibi yöntemlerinin yanında; sarmal tekniklerden genetik algoritma ve karınca koloni optimizasyonu yaklaşımları kullanılmıştır. Farklı özellik alt kümelerine sahip veriler üzerinde yapılan deneylerde, özellik seçim süreçlerinden sonra yaklaşımların performans analizini yapabilmek için lojistik regresyon, rastgele orman, adaboost, karar ağacı ve derin sinir ağları gibi sınıflandırıcı algoritmaları kullanılmıştır. Genetik algoritmanın mutasyon oranı parametresi üzerinde yapılan deneyler, mutasyon oranının performansta etkili olduğunu ve %20 oranının kullanılmasıyla sonuçların iyileştirildiğini göstermektedir. Mutasyon oranı ‰1 olduğunda doğrusal destek vektör makineleri ile yaklaşık %87 doğruluk elde edilirken, %20 mutasyon oranında rastgele orman ile yaklaşık %96 doğruluk sağlanmıştır. Karınca koloni optimizasyonu ile doğrusal destek vektör makineleri birlikte kullanıldığında ise yaklaşık %99 duyarlılık oranı elde edilmiştir. Bu tez çalışması, özellik seçiminin sınıflandırma performansına doğrudan etki ettiğini ve hibrit yaklaşımların spam mesajlarının tespitinde başarıyı artırdığını ortaya koymaktadır.
Özet (Çeviri)
In today's world, fast and secure communication is of great importance. In this context, electronic mails are frequently preferred due to reasons such as ease of use and low cost. However, with the increasing use of emails, communication security risks also increase. Unwanted emails, which are one of the most common forms of abuse, are harmful electronic messages used for purposes such as phishing, fraud, and unfair gain. Classification methods are employed to protect email systems from malicious tools and techniques, and feature selection studies are conducted to enhance classification performance. Feature selection is an optimization process that aims to select the most suitable and important features using different techniques that affect the classification performance. In this study, filtering-based techniques such as association rule mining and variance threshold, as well as spiral techniques such as genetic algorithms and ant colony optimization, were used in the feature selection process of the spam classification problem. Experiments were conducted on data with different subsets of features, and classifier algorithms such as logistic regression, random forest, adaboost, decision tree, and deep neural networks were utilized to analyze the performance of the approaches after the feature selection process. The experiments conducted on the mutation rate parameter of the genetic algorithm demonstrate that the mutation rate significantly affects the performance, and using a mutation rate of 20% improves the results. While a mutation rate of 1‰ yields an accuracy of approximately 87% with linear support vector machines, a mutation rate of 20% achieves an accuracy of approximately 96% with random forest. When ant colony optimization is combined with linear support vector machines, an approximate sensitivity rate of 99% is achieved. This thesis highlights the direct impact of feature selection on classification performance and demonstrates that hybrid approaches enhance the success of spam message detection.
Benzer Tezler
- Bayes yöntemi kullanarak istenmeyen elektronik postaların filtrelenmesi
Filtering spam e-mails with Bayesian approach
CÜNEYT ALTUNYAPRAK
Yüksek Lisans
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMuğla Üniversitesiİstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. TANER DİNÇER
- Yapay arı kolonisi temelli lojistik regresyon sınıflayıcıların optimal tasarımı ve türkçe spam maillerin filtrelenmesinde başarımlarının incelenmesi
Optimal design of artificial bee colony based logistic regression classifiers and analysis of their performances in filtering turkish spam e-mails
BİLGE KAĞAN DEDETÜRK
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BAHRİYE AKAY
- Yapay bağışıklık sistemi ile spam filtreleme
Artificial immune system with spam filter
CÜNEYT ÖZDEMİR
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET BEDRİ ÖZER
- Elektronik postaların ayrıştırılmasında Naive Bayesian ve bulanık mantık yöntemlerinin karşılaştırılması
Analysis of electronic mail, comparison of methods fuzzy logic and Naive Bayesian
BURHAN YUMAK
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. AYSUN COŞKUN
- A computational analysis of a language structure in natural language text processing
Doğal dil metin işlemede dil yapısının sayısal analizi
SİNAN EŞ
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. ALİ RIZA AŞKUN