Geri Dön

Makine öğrenme yöntemleri ve kelime kümesi tekniği ile istenmeyen e-posta / e-posta sınıflaması

Spam / ham e-mail classification using machine learning methods based on bag of words (BOW) technique

  1. Tez No: 493899
  2. Yazar: ESRA ŞAHİN
  3. Danışmanlar: YRD. DOÇ. DR. MURAT AYDOS
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 88

Özet

Günümüzde elektronik ortamda sıkça kullandığımız iletişim yollarından birisi olan e-postalar; kişisel iletişimler, iş odaklı aktiviteler, pazarlama, reklam, eğitim vs. gibi birçok nedenden dolayı hayatımızda önemli bir yer kaplamaktadır. Birçok farklı konudaki iletişim ihtiyacı için hayatımızı kolaylaştıran e-postalar, kötü niyetli göndericiler tarafından kullanıldıklarında ise alıcıların zamanını çalması, maddi ve manevi kayıplara sebep olması nedeniyle hayatı oldukça zorlaştırabilmektedir. Tanımadığımız ya da güvenilmeyen adreslerden, reklam ya da güvenlik tehdidi oluşturma amaçlı gönderilen e-postalar, bilgi güvenliği açısından önemli tehlikeler oluşturabilir. Bu türdeki istenmeyen e-postaları, insanlara zarar vermeden önce tespit edip önleyebilmek ise ayrı bir çalışma konusu olmuştur. Bu tez çalışmasında istenmeyen e-postalar kapsamlı bir şekilde araştırılmış, istenmeyen e-postaları sınıflandırmak için yapılan çalışmalar incelenmiştir. Alanyazındaki çalışmalardan farklı olarak e-posta içeriğinde yer alan linklerin metinleri ele alınarak, makine öğrenmesi yöntemleri ve Kelime Kümesi Tekniği ile istenmeyen e-posta/e-posta sınıflaması yapılmıştır. Yapılan çalışmada doğruluk, F1 skor ve sınıflama hata oranı metrikleri kullanılarak farklı makine öğrenme tekniklerinin istenmeyen e-posta sınıflandırılmasındaki başarısı analiz edilmiştir. Diğer yandan başarı oranı %95 üzerinde çıkan makine öğrenme teknikleri için Kelime Kümesi Tekniği (BOW) ile elde edilen farklı N gramların sınıflandırma başarısına olan etkisi incelenmiştir. Çalışma sonucunda Bayes, Destek Vektör Makineleri, Sinir Ağları ve En Yakın Komşu algoritmaları yüksek başarı gösterirken Karar Ağaçları Algoritmalarının istenmeyen e-posta sınıflamada düşük başarı gösterdiği görülmüştür. Diğer yandan 5 gramların performansa en iyi katkıyı sağladığı görülmüştür.

Özet (Çeviri)

Nowadays, we frequently use e-mails, which is one of the communication channels, in electronic environment. It plays an important role in our lives because of many reasons such as personal communications, business-focused activities, marketing, advertising, education, etc. E-mails make life easier because of meeting many different types of communication needs. On the other hand they can make life difficult when they are used outside of their purposes. Spam emails can be not only annoying receivers, but also dangerous for receiver's information security. Detecting and preventing spam e-mails has been a separate issue. In this thesis, spam e-mails have been studied comprehensively and studies which is related to classifying spam e-mails have been investigated. Unlike the studies in the literature, in this study; the texts of the links placed in the e-mail body are handled and classified by the machine learning methods and the Bag of Words Technique. In this study, we analyzed the effect of different N grams on classification performance and the success of different machine learning techniques in classifying spam e-mail by using accuracy, F1 score and classification error metrics. On the other hand, the effect of different N grams is examined for machine learning success rate of over %95. As a result of the study, it has been seen that Decision Trees Algorithms show low success in spam classification when Bayes, Support Vector Machines, Neural Networks and Nearest Neighbor Algorithms show high success. On the other hand, 5 grams were found to provide the best contribution for performance

Benzer Tezler

  1. A faithfulness-aware pretraining strategy for abstractive text summarization

    Soyutlayıcı metin özetleme için sadakat-farkında bir ön eğitim stratejisi

    MOHANAD ALREFAAI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. DEVRİM AKGÜN

  2. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  3. UGQE: Uncertainty guided query expansion in image retrieval

    BYSG: Görüntü erişiminde belirsizlik yönlendirmeli sorgu genişletme

    FIRAT ÖNCEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. GÖZDE ÜNAL

  4. Sensor-based activity recognition and authentication using deep learning

    Derin öğrenme yöntemleri ile sensör tabanlı sistemlerde aktivite ve kimlik tanıma

    NİLAY TÜFEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEHRA ÇATALTEPE

  5. Deep learning based dynamic turkish sign language recognition with leap motion

    Derin öğrenme tabanlı leap motıon ile dinamik türk işaret dili tanıma

    BURÇAK DEMİRCİOĞLU KAM

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HATİCE KÖSE