Veri madenciliği teknikleri ile istenmeyen Türkçe e-postaların önlenmesi üzerine bir uygulama
An application on preventing undesired e-mails in Turkish by using data mining techniques
- Tez No: 517536
- Danışmanlar: DOÇ. DR. ÖZGÜR ÇAKIR
- Tez Türü: Yüksek Lisans
- Konular: İşletme, Business Administration
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Marmara Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: İşletme Ana Bilim Dalı
- Bilim Dalı: Sayısal Yöntemler Bilim Dalı
- Sayfa Sayısı: 143
Özet
İstenmeyen e-postalara maruz kalmak işletmelerin iş süreçlerinde aksamalara, zaman kayıplarına ve hatta maddi kayıplarına sebep olduğundan günümüzün önemli sorunlarından biri olarak görülmektedir. İstenmeyen e-postaların engellenmesi için öncelikle tespit edilmeleri gerekmektedir. Bu çalışmada, gelen e-postaların sınıflandırılması ve istenmeyen Türkçe e-postaların tespiti için Naive Bayes algoritmaları (iki terimli ve çok terimli) ve Destek Vektör Makinesi algoritmaları (doğrusal ve RBF çekirdek fonksiyonlu) kullanılmıştır. Çalışmada, öğrenme kümesinin Türkçede kullanılan etkisiz kelimelerden arındırılması ve arındırılmaması durumunda TF-IDF yöntemi ile oluşturulan farklı boyutlardaki özellik vektörlerinin sınıflandırma başarısına etkisi 72 farklı model oluşturularak incelenmiştir. Öğrenme kümesinden etkisiz kelimelerin arındırılmaması durumunda oluşturulan modellerin çoğunlukla daha yüksek başarı ile sınıflandırma işlemini gerçekleştirdiği sonucuna ulaşılmıştır. En yüksek başarıyı elde eden sınıflandırma algoritmasının çok terimli naive bayes algoritması olduğu gözlemlenmiştir.
Özet (Çeviri)
Nowadays, spam (Junk) mails might be considered as an important issue since they causes disruptions of business processes, a waste of time and also financial losses. The first step to prevent spam mails have to be detecting them. In this study, Naïve Bayes (Bernoulli and Multinomial) and Support Vector Machine (Linear and RBF Kernel Functions) algorithms are applied to a data set in order to classify incoming mails and prevent unwanted ones. Besides, in 72 different models, it is examined how different size TF-IDF feature vectors affect the accuracy of classification in learning data set with or without stop-words used in Turkish. In case of not removed stop-words used in Turkish success of classification in learning data has been observed to increase. In this study using Multinomial Naive Bayes classification algorithm achieved the best result.
Benzer Tezler
- Veri madenciliği yöntemleri ile spam filtreleme
Spam filtering using data mining methods
SERDAR KÜRŞAT SARIKOZ
Yüksek Lisans
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. M. ALİ AKCAYOL
- Müşteri ödemelerinde sürekliliğin sağlanması ve veri madenciliği teknikleri ile analiz edilmesi
Ensuring continuity in customer payments and analysis with data mining techniques
EBRU KISA KAYİŞ
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBeykent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ATINÇ YILMAZ
- Finansal durum analizi için veri madenciliği yaklaşımı
Data mining approach for financial situation analysis
OĞUZCAN ULUDAĞ
- MR spektroskopi temelli beyin tümörü teşhisinde veri madenciliği uygulamaları
Applications of data mining in MR spectroscopy based brain tumor diagnosis
SİNAN ALTUN
Yüksek Lisans
Türkçe
2018
Elektrik ve Elektronik MühendisliğiKahramanmaraş Sütçü İmam ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET ALKAN
- Kimyasal ürün depolamada dinamik lokasyon tabanlı yerleştirme algoritması
Dynamic location based placement algorithm in chemical product storage
CEMİL ÇELİK
Doktora
Türkçe
2023
Endüstri ve Endüstri MühendisliğiKocaeli ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ZERRİN ALADAĞ