Veri madenciliği yöntemleri ile spam filtreleme
Spam filtering using data mining methods
- Tez No: 285484
- Danışmanlar: DOÇ. DR. M. ALİ AKCAYOL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2010
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 157
Özet
Ticaretin internet kanalları üzerinden gelişmesi, hızlı ve ekonomik haberleşme olması nedeni ile elektronik posta haberleşmesinin hayatımızda giderek önemini artırmıştır. İşlem maliyetinin çok düşük olması, çok büyük miktardaki verilerin çok uzak mesafelere saniyeler içinde aktarılmasına olanak sağlaması yaygınlaşmasını sağlamıştır. İnternet üzerinde aynı mesajın yüksek sayıdaki kopyasının, bu tip bir mesajı alma talebinde bulunmamış kişilere, zorlayıcı nitelikte gönderilmesi spam olarak adlandırılır. E-posta yolu ile gönderilen spam türlerinden ticari içerikli olan UCE (Unsolicited Commercial E-mail) ve UBE (Unsolicited Bulk E-mail) adından da anlaşılacağı gibi istenmediği halde size gönderilen bir ürünü ya da hizmeti tanıtıcı elektronik posta iletileridir. İstenmeyen elektronik posta problemini tamamen çözebilmiş tek bir teknik ya da tekniklerin birleşmesinden oluşan bir çözüm mevcut değildir. İstenmeyen iletilerin belirlenmesine yönelik birçok veri madenciliği çalışması da yapılmıştır. Veri madenciliği açıkça verinin bir parçası olmayan veride ilginç örüntüleri bulma sürecine denir. Spam filtrelemede iki tür yaklaşım söz konusudur. Bunlardan birincisi bilgi mühendisliği (knowledge engineering) yöntemi ile kurallar oluşturarak filtreleme yapmaktır. Diğeri ise makine öğrenimi ya da makine öğrenimi tekniklerini büyük veri setleri üzerinde uygulayarak makine öğreniminden ayrılan veri madenciliği olarak bilinen yöntemler ile önceden hazırlanmış veri setleri ile sınıflandırmanın yapılmasıdır.Bu tez kapsamında e-posta veri setleri üzerinden oluşturulmuş olan nitelik uzayı üzerinde veri madenciliği yöntemleri uygulanarak spam filtreleme yapılmıştır.
Özet (Çeviri)
The importance of e-mail communication in our lives has continually increased since the commerce is developed over internet channels, and there is fast and economic communication. Very low operation cost provides transferring a large number of data within a few seconds over long distances.Sending a large number of copies of the same message stringently to the people who are not willing to receive over the internet is called spam.UCE (Unsolicited Commercial e-mail) and UBE (Unsolicited Bulk e-mail) which are kinds of spam messages sent via e-mail, as it can be inferred from the names, are introductory e-mails which is actually undesirable.There is not an available unique technique or an available solution combined by the techniques in which the problem of undesirable e-mail is solved. There have been lots of data mining approaches aimed at determining unsolicited e-mails.Data mining is the process of finding the interesting patterns which are obviously not part of the data. In spam filtering, there are two kinds of approaches. One is filtering by constructing the rules by knowledge engineering. Second is classification within datasets prearranged via the techniques known as data mining separated from machine learning by applying machine learning techniques over very large datasets.Within the scope of this thesis, spam filtering has been implemented by applying data mining techniques over attribute space model formed on the basis of e-mail datasets.
Benzer Tezler
- İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği
Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece
SEFA YAY
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesiİstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TOLGA BERBER
- A matched-pair comparative study on classification of data streams with concept drift
İçerik kayması bulunan akışkan verilerin sınıflandırılmasında eşleştirmeli karşılaştırma çalışması
ELİF SELEN BABÜROĞLU
Yüksek Lisans
İngilizce
2019
Endüstri ve Endüstri MühendisliğiGaziantep ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALPTEKİN DURMUŞOĞLU
PROF. DR. TÜRKAY DERELİ
- Spammer detection in social bookmarking systems
Sosyal imleme sistemlerinde istenmeyen kullanıcıları belirleme
SOGHRA MEHDİNEJAD GARGARİ
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ
- Çizge evrişimli sinir ağları kullanılarak metin sınıflandırma
Text classification using graph convolutional networks
RUKİYE ÖZDEMİR TEKİR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ABDURRAHİM AKGÜNDOĞDU
- Veri madenciliği teknikleri ile istenmeyen Türkçe e-postaların önlenmesi üzerine bir uygulama
An application on preventing undesired e-mails in Turkish by using data mining techniques
SEFA SAYLAN