Geri Dön

İstenmeyen elektronik posta sınıflandırma probleminde etkin özellik seçimi

Effective feature selection in spam mail classification problem

  1. Tez No: 814317
  2. Yazar: NURİYE BAKTIR
  3. Danışmanlar: DR. ÖĞR. ÜYESİ YILMAZ ATAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 142

Özet

Günümüzde hızlı ve güvenli iletişim büyük önem taşımaktadır. Bu bağlamda elektronik postalar, kullanım kolaylığı ve düşük maliyet gibi sebeplerle sıklıkla tercih edilmektedir. Ancak, e-posta kullanımının artmasıyla birlikte iletişim güvenliği riskleri de artmaktadır. En yaygın kötüye kullanım türlerinden olan istenmeyen e-postalar, kimlik avı, dolandırıcılık ve haksız kazanç gibi amaçlarla kullanılan zararlı elektronik iletilerdir. Güvenli iletişim için e-posta sistemlerini zararlı araçlardan korumak amacıyla sınıflandırma yöntemleri kullanılmakta ve sınıflandırma performansını artırmak için özellik seçimi çalışmaları yapılmaktadır. Özellik seçimi, sınıflandırma performansını etkileyen farklı tekniklerle en uygun ve önemli özellikleri seçerek başarılı sonuçlar elde etmeyi amaçlayan bir optimizasyon sürecidir. Bu çalışmada, spam sınıflandırma probleminin özellik seçim sürecinde ele alınabilecek filtreleme tabanlı tekniklerden birliktelik kuralı madenciliği, varyans eşiği gibi yöntemlerinin yanında; sarmal tekniklerden genetik algoritma ve karınca koloni optimizasyonu yaklaşımları kullanılmıştır. Farklı özellik alt kümelerine sahip veriler üzerinde yapılan deneylerde, özellik seçim süreçlerinden sonra yaklaşımların performans analizini yapabilmek için lojistik regresyon, rastgele orman, adaboost, karar ağacı ve derin sinir ağları gibi sınıflandırıcı algoritmaları kullanılmıştır. Genetik algoritmanın mutasyon oranı parametresi üzerinde yapılan deneyler, mutasyon oranının performansta etkili olduğunu ve %20 oranının kullanılmasıyla sonuçların iyileştirildiğini göstermektedir. Mutasyon oranı ‰1 olduğunda doğrusal destek vektör makineleri ile yaklaşık %87 doğruluk elde edilirken, %20 mutasyon oranında rastgele orman ile yaklaşık %96 doğruluk sağlanmıştır. Karınca koloni optimizasyonu ile doğrusal destek vektör makineleri birlikte kullanıldığında ise yaklaşık %99 duyarlılık oranı elde edilmiştir. Bu tez çalışması, özellik seçiminin sınıflandırma performansına doğrudan etki ettiğini ve hibrit yaklaşımların spam mesajlarının tespitinde başarıyı artırdığını ortaya koymaktadır.

Özet (Çeviri)

In today's world, fast and secure communication is of great importance. In this context, electronic mails are frequently preferred due to reasons such as ease of use and low cost. However, with the increasing use of emails, communication security risks also increase. Unwanted emails, which are one of the most common forms of abuse, are harmful electronic messages used for purposes such as phishing, fraud, and unfair gain. Classification methods are employed to protect email systems from malicious tools and techniques, and feature selection studies are conducted to enhance classification performance. Feature selection is an optimization process that aims to select the most suitable and important features using different techniques that affect the classification performance. In this study, filtering-based techniques such as association rule mining and variance threshold, as well as spiral techniques such as genetic algorithms and ant colony optimization, were used in the feature selection process of the spam classification problem. Experiments were conducted on data with different subsets of features, and classifier algorithms such as logistic regression, random forest, adaboost, decision tree, and deep neural networks were utilized to analyze the performance of the approaches after the feature selection process. The experiments conducted on the mutation rate parameter of the genetic algorithm demonstrate that the mutation rate significantly affects the performance, and using a mutation rate of 20% improves the results. While a mutation rate of 1‰ yields an accuracy of approximately 87% with linear support vector machines, a mutation rate of 20% achieves an accuracy of approximately 96% with random forest. When ant colony optimization is combined with linear support vector machines, an approximate sensitivity rate of 99% is achieved. This thesis highlights the direct impact of feature selection on classification performance and demonstrates that hybrid approaches enhance the success of spam message detection.

Benzer Tezler

  1. Bayes yöntemi kullanarak istenmeyen elektronik postaların filtrelenmesi

    Filtering spam e-mails with Bayesian approach

    CÜNEYT ALTUNYAPRAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMuğla Üniversitesi

    İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı

    YRD. DOÇ. DR. TANER DİNÇER

  2. Yapay arı kolonisi temelli lojistik regresyon sınıflayıcıların optimal tasarımı ve türkçe spam maillerin filtrelenmesinde başarımlarının incelenmesi

    Optimal design of artificial bee colony based logistic regression classifiers and analysis of their performances in filtering turkish spam e-mails

    BİLGE KAĞAN DEDETÜRK

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BAHRİYE AKAY

  3. Yapay bağışıklık sistemi ile spam filtreleme

    Artificial immune system with spam filter

    CÜNEYT ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET BEDRİ ÖZER

  4. Elektronik postaların ayrıştırılmasında Naive Bayesian ve bulanık mantık yöntemlerinin karşılaştırılması

    Analysis of electronic mail, comparison of methods fuzzy logic and Naive Bayesian

    BURHAN YUMAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. AYSUN COŞKUN

  5. A computational analysis of a language structure in natural language text processing

    Doğal dil metin işlemede dil yapısının sayısal analizi

    SİNAN EŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. ALİ RIZA AŞKUN