Makine öğrenme yöntemleri ve kelime kümesi tekniği ile istenmeyen e-posta / e-posta sınıflaması
Spam / ham e-mail classification using machine learning methods based on bag of words (BOW) technique
- Tez No: 493899
- Danışmanlar: YRD. DOÇ. DR. MURAT AYDOS
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 88
Özet
Günümüzde elektronik ortamda sıkça kullandığımız iletişim yollarından birisi olan e-postalar; kişisel iletişimler, iş odaklı aktiviteler, pazarlama, reklam, eğitim vs. gibi birçok nedenden dolayı hayatımızda önemli bir yer kaplamaktadır. Birçok farklı konudaki iletişim ihtiyacı için hayatımızı kolaylaştıran e-postalar, kötü niyetli göndericiler tarafından kullanıldıklarında ise alıcıların zamanını çalması, maddi ve manevi kayıplara sebep olması nedeniyle hayatı oldukça zorlaştırabilmektedir. Tanımadığımız ya da güvenilmeyen adreslerden, reklam ya da güvenlik tehdidi oluşturma amaçlı gönderilen e-postalar, bilgi güvenliği açısından önemli tehlikeler oluşturabilir. Bu türdeki istenmeyen e-postaları, insanlara zarar vermeden önce tespit edip önleyebilmek ise ayrı bir çalışma konusu olmuştur. Bu tez çalışmasında istenmeyen e-postalar kapsamlı bir şekilde araştırılmış, istenmeyen e-postaları sınıflandırmak için yapılan çalışmalar incelenmiştir. Alanyazındaki çalışmalardan farklı olarak e-posta içeriğinde yer alan linklerin metinleri ele alınarak, makine öğrenmesi yöntemleri ve Kelime Kümesi Tekniği ile istenmeyen e-posta/e-posta sınıflaması yapılmıştır. Yapılan çalışmada doğruluk, F1 skor ve sınıflama hata oranı metrikleri kullanılarak farklı makine öğrenme tekniklerinin istenmeyen e-posta sınıflandırılmasındaki başarısı analiz edilmiştir. Diğer yandan başarı oranı %95 üzerinde çıkan makine öğrenme teknikleri için Kelime Kümesi Tekniği (BOW) ile elde edilen farklı N gramların sınıflandırma başarısına olan etkisi incelenmiştir. Çalışma sonucunda Bayes, Destek Vektör Makineleri, Sinir Ağları ve En Yakın Komşu algoritmaları yüksek başarı gösterirken Karar Ağaçları Algoritmalarının istenmeyen e-posta sınıflamada düşük başarı gösterdiği görülmüştür. Diğer yandan 5 gramların performansa en iyi katkıyı sağladığı görülmüştür.
Özet (Çeviri)
Nowadays, we frequently use e-mails, which is one of the communication channels, in electronic environment. It plays an important role in our lives because of many reasons such as personal communications, business-focused activities, marketing, advertising, education, etc. E-mails make life easier because of meeting many different types of communication needs. On the other hand they can make life difficult when they are used outside of their purposes. Spam emails can be not only annoying receivers, but also dangerous for receiver's information security. Detecting and preventing spam e-mails has been a separate issue. In this thesis, spam e-mails have been studied comprehensively and studies which is related to classifying spam e-mails have been investigated. Unlike the studies in the literature, in this study; the texts of the links placed in the e-mail body are handled and classified by the machine learning methods and the Bag of Words Technique. In this study, we analyzed the effect of different N grams on classification performance and the success of different machine learning techniques in classifying spam e-mail by using accuracy, F1 score and classification error metrics. On the other hand, the effect of different N grams is examined for machine learning success rate of over %95. As a result of the study, it has been seen that Decision Trees Algorithms show low success in spam classification when Bayes, Support Vector Machines, Neural Networks and Nearest Neighbor Algorithms show high success. On the other hand, 5 grams were found to provide the best contribution for performance
Benzer Tezler
- A faithfulness-aware pretraining strategy for abstractive text summarization
Soyutlayıcı metin özetleme için sadakat-farkında bir ön eğitim stratejisi
MOHANAD ALREFAAI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. DEVRİM AKGÜN
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- UGQE: Uncertainty guided query expansion in image retrieval
BYSG: Görüntü erişiminde belirsizlik yönlendirmeli sorgu genişletme
FIRAT ÖNCEL
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. GÖZDE ÜNAL
- Sensor-based activity recognition and authentication using deep learning
Derin öğrenme yöntemleri ile sensör tabanlı sistemlerde aktivite ve kimlik tanıma
NİLAY TÜFEK
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE
- Deep learning based dynamic turkish sign language recognition with leap motion
Derin öğrenme tabanlı leap motıon ile dinamik türk işaret dili tanıma
BURÇAK DEMİRCİOĞLU KAM
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HATİCE KÖSE